Оглавление

Сообщество машинного обучения получило новый мощный инструмент для работы с мультиязычными задачами. mmBERT — это передовая энкодерная модель, обученная на более чем 3 триллионах токенов текста на 1800+ языках. Модель показывает значительное улучшение производительности и скорости по сравнению с предыдущими мультиязычными решениями, став первой, кто превзошел XLM-R.

Архитектура и инновационные подходы

mmBERT построена на архитектуре ModernBERT с 22 слоями и 1152 промежуточными размерностями, но использует токенизатор Gemma 2 для лучшей обработки мультиязычного текста. Базовая модель содержит 110M параметров (без учета эмбеддингов), а малая версия — 42M параметров.

Трехэтапная стратегия обучения

Обучение модели проводилось в три этапа:

  1. Предобучение (2.3T токенов): Разогрев и стабильная фаза обучения на 60 языках с 30% маскировкой
  2. Среднее обучение (600B токенов): Расширение контекста до 8192 токенов, более качественные данные, 110 языков с 15% маскировкой
  3. Фаза затухания (100B токенов): Затухание скорости обучения по обратному квадратному корню, все 1833 языка с 5% маскировкой

Ключевые инновации в обучении

Модель использует несколько революционных техник:

  • Прогрессивное изменение маскировки: От 30% → 15% → 5% на этапах обучения
  • Аннелированное изучение языков: Динамическая регулировка температуры для мультиязычной выборки данных
  • Прогрессивное добавление языков: Стратегическое добавление языков на каждом этапе (60 → 110 → 1,833)
Распределение каждого этапа предобучения с прогрессивным включением языков

Данные для обучения

Обучение проводилось на тщательно отобранном мультиязычном датасете, включающем:

  • DCLM и Filtered DCLM: Высококачественный английский контент (до 18% от общего объема)
  • FineWeb2: Широкий мультиязычный веб-контент, охватывающий 1800+ языков
  • FineWeb2-HQ: Отфильтрованная версия для 20 высокоресурсных языков

Также использовались специализированные корпуса из Dolma, MegaWika v2, код-репозитории, академический контент и математические датасеты.

Прогрессивное добавление языков — это тот самый недостающий элемент в мультиязычном моделировании, который все искали. Вместо того чтобы пытаться научить модель всему сразу, разработчики mmBERT пошли по пути постепенного усложнения задачи, что напоминает то, как люди изучают языки: сначала осваивают базовые, затем добавляют новые. Особенно впечатляет работа с низкоресурсными языками — здесь традиционно были самые большие проблемы из-за недостатка данных.

Таблица сравнения производительности моделей для понимания английского языка по метрике GLUE

Заключение

mmBERT представляет собой значительный шаг вперед в мультиязычном моделировании, предлагая не только улучшенную производительность, но и инновационные подходы к обучению. Модель уже доступна для использования, и разработчики могут начать экспериментировать с ней в своих проектах.

По материалам HuggingFace.