Оглавление

Исследователи из MIT-IBM Watson AI Lab разработали методику, которая позволяет предсказывать производительность больших языковых моделей на основе их меньших версий. Это решение помогает оптимизировать многомиллионные бюджеты на обучение ИИ, сокращая финансовые риски при разработке.

Проблема дорогостоящих экспериментов

Обучение крупных языковых моделей представляет собой сложный и дорогостоящий процесс, где каждая ошибка в выборе архитектуры, оптимизатора или тренировочных данных может обойтись в миллионы долларов. Традиционно разработчики используют законы масштабирования — математические модели, которые предсказывают производительность большой модели на основе результатов её меньших аналогов.

Проблема в том, что существует тысячи способов создания таких законов масштабирования, и до сих пор не было универсального руководства по их выбору.

Масштабное исследование

Команда исследователей собрала и проанализировала 485 предобученных моделей из 40 различных семейств, включая Pythia, OPT, OLMO, LLaMA, Bloom, T5-Pile и другие. В исследовании использовалось более 1.9 миллиона метрик производительности, что позволило протестировать свыше 1000 законов масштабирования.

Как отмечает Джейкоб Андреас, доцент кафедры электротехники и информатики MIT: «Раньше каждый создавал свои законы масштабирования индивидуально. Мы впервые провели систематический метаанализ, чтобы выявить общие закономерности».

Практические рекомендации

Исследователи сформулировали конкретные рекомендации для разработчиков:

  • Включать промежуточные контрольные точки обучения вместо использования только финальных результатов
  • Исключать данные раннего обучения (до 10 миллиардов токенов) из-за высокого уровня шума
  • Обучать больше моделей разного размера вместо длительного обучения меньшего количества моделей

Точность предсказаний оценивалась с помощью абсолютной относительной ошибки (ARE). Исследование показало, что достижимая точность предсказаний составляет около 4% ARE, при этом ошибки до 20% ARE остаются полезными для принятия решений.

Это исследование — редкий пример практической работы в области ИИ, где теория встречается с реальными бюджетными ограничениями. Методика MIT фактически создает «финансовый компас» для разработчиков ИИ, позволяя избежать многомиллионных ошибок в ситуации, когда стоимость обучения одной модели сравнима с бюджетом небольшой IT-компании.

Демократизация разработки ИИ

Как отмечает Лешем Хозен из IBM Research, разработанные руководства не только улучшают процесс принятия решений, но и демократизируют область разработки ИИ. Теперь исследователи без огромных ресурсов могут понимать и создавать эффективные законы масштабирования.

Работа была представлена на Международной конференции по машинному обучению и уже привлекла внимание крупных игроков индустрии.

По материалам MIT News.