mmBERT от Hugging Face — мультиязычная модель на 1800 языков

Hugging Face анонсировала mmBERT — мультиязычную модель с поддержкой 1800+ языков, обученную на 3T+ токенов с инновационными методами прогрессивного обучения.

Оглавление

Архитектура и инновационные подходы
Трехэтапная стратегия обучения
Ключевые инновации в обучении
Данные для обучения
Заключение

Сообщество машинного обучения получило новый мощный инструмент для работы с мультиязычными задачами. mmBERT — это передовая энкодерная модель, обученная на более чем 3 триллионах токенов текста на 1800+ языках. Модель показывает значительное улучшение производительности и скорости по сравнению с предыдущими мультиязычными решениями, став первой, кто превзошел XLM-R.

Архитектура и инновационные подходы

mmBERT построена на архитектуре ModernBERT с 22 слоями и 1152 промежуточными размерностями, но использует токенизатор Gemma 2 для лучшей обработки мультиязычного текста. Базовая модель содержит 110M параметров (без учета эмбеддингов), а малая версия — 42M параметров.

Трехэтапная стратегия обучения

Обучение модели проводилось в три этапа:

Предобучение (2.3T токенов): Разогрев и стабильная фаза обучения на 60 языках с 30% маскировкой
Среднее обучение (600B токенов): Расширение контекста до 8192 токенов, более качественные данные, 110 языков с 15% маскировкой
Фаза затухания (100B токенов): Затухание скорости обучения по обратному квадратному корню, все 1833 языка с 5% маскировкой

Ключевые инновации в обучении

Модель использует несколько революционных техник:

Прогрессивное изменение маскировки: От 30% → 15% → 5% на этапах обучения
Аннелированное изучение языков: Динамическая регулировка температуры для мультиязычной выборки данных
Прогрессивное добавление языков: Стратегическое добавление языков на каждом этапе (60 → 110 → 1,833)

Распределение каждого этапа предобучения с прогрессивным включением языков

Данные для обучения

Обучение проводилось на тщательно отобранном мультиязычном датасете, включающем:

DCLM и Filtered DCLM: Высококачественный английский контент (до 18% от общего объема)
FineWeb2: Широкий мультиязычный веб-контент, охватывающий 1800+ языков
FineWeb2-HQ: Отфильтрованная версия для 20 высокоресурсных языков

Также использовались специализированные корпуса из Dolma, MegaWika v2, код-репозитории, академический контент и математические датасеты.

Прогрессивное добавление языков — это тот самый недостающий элемент в мультиязычном моделировании, который все искали. Вместо того чтобы пытаться научить модель всему сразу, разработчики mmBERT пошли по пути постепенного усложнения задачи, что напоминает то, как люди изучают языки: сначала осваивают базовые, затем добавляют новые. Особенно впечатляет работа с низкоресурсными языками — здесь традиционно были самые большие проблемы из-за недостатка данных.

Таблица сравнения производительности моделей для понимания английского языка по метрике GLUE

Заключение

mmBERT представляет собой значительный шаг вперед в мультиязычном моделировании, предлагая не только улучшенную производительность, но и инновационные подходы к обучению. Модель уже доступна для использования, и разработчики могут начать экспериментировать с ней в своих проектах.

По материалам HuggingFace.

Новости

Hugging Face запускает mmBERT — мультиязычную модель с поддержкой 1800 языков

Архитектура и инновационные подходы

Трехэтапная стратегия обучения

Ключевые инновации в обучении

Данные для обучения

Заключение

Еще интереснее

Исследование показало различия в источниках информации у ИИ-чатов и обычного поиска

Браузеры с ИИ: кому нужен цифровой помощник, который угрожает вашим паролям

Исследование подтверждает: языковые модели слишком часто льстят пользователям

Anthropic открывает офис в Сеуле для расширения в АТР

Оставить комментарий