Оглавление

Исследователи из команды MiniMax AI поделились результатами работы над моделью MiniMax M2, которая заняла первое место среди открытых моделей и пятое среди всех моделей в бенчмарке Artificial Analysis. В центре внимания оказались принципы формирования обучающих данных для развития способности к рассуждениям.

Сравнение производительности языковых моделей в бенчмарке Artificial Analysis с ранжированием MiniMax M2
Источник: huggingface.co

Качество цепочек рассуждений и ответов

Логическая полнота без избыточной избыточности — ключевой критерий качества цепочек рассуждений (CoT). Слишком краткие объяснения приводят к пропуску шагов или излишней уверенности модели, что серьезно вредит финальной производительности и обобщению способностей.

Что касается ответов, большинство открытых работ переобучаются под конкретные паттерны бенчмарков ради лучших результатов в лидербордах. Хотя это эффективно для отдельных направлений данных, такая практика серьезно ограничивает обобщение возможностей универсальной модели.

При синтезе данных команда внедрила разнообразие форматов и наблюдала значительный прирост в экспериментах по многопрофильному слиянию. Для обработки потенциально проблемных случаев в CoT и ответах — таких как галлюцинации, ошибки следования инструкциям и логические ошибки — применялась очистка данных с использованием правил и LLM-as-a-judge.

Примечательно, что команда рассуждений состоит почти полностью из стажеров, что делает их достижения еще более впечатляющими. Ирония в том, что именно «сырые» данные требуют такой тонкой обработки, будто мы готовим изысканное блюдо из простых ингредиентов. Но результат говорит сам за себя — качество данных действительно становится новым нефтяным месторождением в машинном обучении.

Сложность и разнообразие распределения данных

Эксперименты подтвердили критическую важность математических и кодовых данных для улучшения способностей к рассуждениям. Эти два типа данных приносят пользу всем задачам, включая STEM и инструктивное выполнение.

Однако для полноценного охвата требуется достаточно разнообразные данные, покрывающие различные домены:

  • Логические рассуждения
  • Научные задачи
  • Следование инструкциям
  • Творческие задачи с открытым финалом

Разные домены требуют различных парадигм мышления, а разнообразие рассуждений служит основой для обобщения способностей. Также было замечено, что более сложные и комплексные запросы эффективнее для обучения моделей.

Масштабирование данных

Когда качество и разнообразие данных соответствуют стандартам, увеличение их объема последовательно приносит значительные улучшения. Практические подходы к масштабированию включают:

  1. Увеличение количества запросов
  2. Генерация нескольких ответов на один вопрос
  3. Многоэпохальное обучение
  4. Смешивание данных из разных направлений

На практике масштабирование данных — это инженерно-ориентированная проблема. Команда консолидировала все данные на основе характеристик задач, разделив их на два конвейера: верифицируемые и неверифицируемые задачи для автоматизированного синтеза и обработки данных.

Перспективные направления

Будущая работа сосредоточена на двух направлениях: составные способности (например, знание + рассуждение) и усиление задач рассуждения с помощью инструментов в сценариях агентов, а также интеграция верифицируемых и неверифицируемых задач, включая слияние CoT из разных доменов и обобщение способностей к рассуждениям.

По материалам Hugging Face.