Оглавление
Hugging Face представляет семейство доменно-специализированных текстовых энкодеров RexBERT, обученных на более чем 2,3 триллионах токенов данных электронной коммерции. Модели демонстрируют превосходство над общецелевыми энкодерами в 2-3 раза большего размера в задачах поиска, сопоставления товаров и классификации атрибутов.
Архитектура и методология обучения
RexBERT построен на архитектурных достижениях ModernBERT с полностью открытым и воспроизводимым пайплайном предобучения. Ключевым элементом стала разработка корпуса Ecom-niverse объемом 350 миллиардов токенов, собранного из разнообразных источников текстов электронной коммерции.
Методология обучения включает три фазы:
- Предобучение (1,7 трлн токенов) — установление широких лингвистических знаний с использованием разнообразных источников
- Расширение контекста (250 млрд токенов) — увеличение длины окна до 8K токенов для моделирования многосекционных документов
- Аннелинг (350 млрд токенов) — специализация на данных электронной коммерции без забывания предыдущих знаний

Данные для обучения
Корпус Ecom-niverse создан на основе FineFineWeb — открытого веб-корпуса объемом более 4,4 триллиона токенов английского текста, категоризированного по примерно 50 доменам. Для электронной коммерции отобрано 15 наиболее релевантных доменов:
- Мода (37 ГБ)
- Красота (37 ГБ)
- Хобби (114 ГБ)
- Здоровье (66 ГБ)
- Путешествия (52 ГБ)
- Еда (22 ГБ)
Технические характеристики моделей
Представлены четыре масштабированных варианта RexBERT для различных сценариев использования:
- Micro (17M параметров): 7 слоев, 256 скрытых размеров
- Mini (68M параметров): 19 слоев, 512 скрытых размеров
- Base (150M параметров): 22 слоя, 768 скрытых размеров
- Large (400M параметров): 28 слоев, 1024 скрытых размеров
Специализированные энкодеры для конкретных доменов — это не просто академическое упражнение, а практическая необходимость для индустрии. В то время как все восхищаются большими генеративными моделями, именно компактные энкодеры остаются рабочей лошадкой production-систем, где важны латенция, стоимость и стабильность. RexBERT демонстрирует, что качественные доменные данные и целевое предобучение могут дать больше, чем простое увеличение параметров.
Производительность и применение
Модели оценивались на данных Amazon ESCI с использованием полей «Название товара» и «Описание товара» при различных размерах контекстного окна (128, 256 и 512 токенов). Специализированные энкодеры последовательно показывают лучшие результаты в задачах:
- Высокоточный поиск и реранкинг
- Сопоставление товар-товар и запрос-товар
- Извлечение и нормализация атрибутов
- Дедупликация каталогов
- Маршрутизация политик и compliance
По сообщению Hugging Face, методология является модель-агностической и может быть использована для предобучения любых контекстно-специфичных энкодеров.
Оставить комментарий