Оглавление

Hugging Face представляет семейство доменно-специализированных текстовых энкодеров RexBERT, обученных на более чем 2,3 триллионах токенов данных электронной коммерции. Модели демонстрируют превосходство над общецелевыми энкодерами в 2-3 раза большего размера в задачах поиска, сопоставления товаров и классификации атрибутов.

Архитектура и методология обучения

RexBERT построен на архитектурных достижениях ModernBERT с полностью открытым и воспроизводимым пайплайном предобучения. Ключевым элементом стала разработка корпуса Ecom-niverse объемом 350 миллиардов токенов, собранного из разнообразных источников текстов электронной коммерции.

Методология обучения включает три фазы:

  1. Предобучение (1,7 трлн токенов) — установление широких лингвистических знаний с использованием разнообразных источников
  2. Расширение контекста (250 млрд токенов) — увеличение длины окна до 8K токенов для моделирования многосекционных документов
  3. Аннелинг (350 млрд токенов) — специализация на данных электронной коммерции без забывания предыдущих знаний
Диаграмма категоризации доменов FineWeb, показывающая релевантные для электронной коммерции домены
Источник: huggingface.co

Данные для обучения

Корпус Ecom-niverse создан на основе FineFineWeb — открытого веб-корпуса объемом более 4,4 триллиона токенов английского текста, категоризированного по примерно 50 доменам. Для электронной коммерции отобрано 15 наиболее релевантных доменов:

  • Мода (37 ГБ)
  • Красота (37 ГБ)
  • Хобби (114 ГБ)
  • Здоровье (66 ГБ)
  • Путешествия (52 ГБ)
  • Еда (22 ГБ)

Технические характеристики моделей

Представлены четыре масштабированных варианта RexBERT для различных сценариев использования:

  • Micro (17M параметров): 7 слоев, 256 скрытых размеров
  • Mini (68M параметров): 19 слоев, 512 скрытых размеров
  • Base (150M параметров): 22 слоя, 768 скрытых размеров
  • Large (400M параметров): 28 слоев, 1024 скрытых размеров

Специализированные энкодеры для конкретных доменов — это не просто академическое упражнение, а практическая необходимость для индустрии. В то время как все восхищаются большими генеративными моделями, именно компактные энкодеры остаются рабочей лошадкой production-систем, где важны латенция, стоимость и стабильность. RexBERT демонстрирует, что качественные доменные данные и целевое предобучение могут дать больше, чем простое увеличение параметров.

Производительность и применение

Модели оценивались на данных Amazon ESCI с использованием полей «Название товара» и «Описание товара» при различных размерах контекстного окна (128, 256 и 512 токенов). Специализированные энкодеры последовательно показывают лучшие результаты в задачах:

  • Высокоточный поиск и реранкинг
  • Сопоставление товар-товар и запрос-товар
  • Извлечение и нормализация атрибутов
  • Дедупликация каталогов
  • Маршрутизация политик и compliance

По сообщению Hugging Face, методология является модель-агностической и может быть использована для предобучения любых контекстно-специфичных энкодеров.