Оглавление

IBM представила второе поколение моделей Granite Embedding R2, которые бросают вызов традиционным компромиссам в области поиска информации для предприятий. Эти модели предлагают сочетание высокой точности, скорости работы и поддержки длинных контекстов при лицензии Apache 2.0.

Три модели для разных задач

В семейство Granite Embedding R2 входят три модели с открытой лицензией:

Ключевые улучшения по сравнению с первым поколением включают увеличение длины контекста в 16 раз (с 512 до 8192 токенов), повышение скорости инференса на 19–44% и достижение наилучших результатов в различных задачах.

Современная архитектура и обучение

Модели построены на архитектуре ModernBERT с чередующимися механизмами внимания, ротационными позиционными эмбеддингами и поддержкой Flash Attention. Обучение проводилось на 2 триллионах токенов из качественных источников, включая GneissWeb, Wikipedia и Granite Code.

Пятиэтапный процесс обучения включает:

  1. Предварительное обучение для поиска с использованием RetroMAE
  2. Предварительное обучение на табличных данных с синтетическими описаниями
  3. Контрастивное дообучение на полу-супервизированных парах
  4. Контрастивная дистилляция с учителем Mistral-7B
  5. Адаптация для диалогового поиска

Производительность: лидерство в точности и скорости

Оценка на шести открытых бенчмарках (MTEB v2, CoIR, TableIR, LongEmbed, MTRAG и MLDR) показала превосходство Granite R2 как в точности, так и в скорости.

Сравнение производительности модели Granite R2 на шести тестах для поиска информации
Источник: huggingface.co

Флагманская модель granite-embedding-english-r2 достигает наивысшего среднего показателя 59.5 NDCG@10, превосходя все сравнимые open-source модели, включая те, что вдвое больше по размеру. Компактная модель показывает результат 55.6, обгоняя многих более крупных конкурентов.

Сравнение скорости моделей Granite R2 показывает на 19-44% более высокую производительность
Источник: huggingface.co

Что касается скорости, тесты на наборе из 23 000 технических документов IBM показали: модели R2 на 19–44% быстрее ведущих конкурентов при сравнимой точности. Особенно впечатляет компактная модель, обрабатывающая почти 200 документов в секунду — идеально для систем реального времени.

Экосистема поиска: модель для переранжирования

Модель переранжирования завершает пайплайн поиска информации. Построенная на основе granite-embedding-english-r2, она использует PListMLE loss для позиционно-осознанного ранжирования.

Этот подход максимизирует как полноту охвата, так и точность результатов без значительных вычислительных затрат.

IBM наконец-то сделала то, о чем многие говорили: создала модели, которые действительно работают в enterprise-сценариях без необходимости выбирать между скоростью и качеством. Особенно впечатляет работа с табличными данными — традиционно слабое место эмбеддинговых моделей. Лицензия Apache 2.0 делает это решение еще более привлекательным для коммерческого использования.

По материалам Hugging Face.