Оглавление

Не прошло и месяца после анонса семейства моделей Olmo 3, как Allen Institute for AI (Ai2) представил их улучшенные версии — Olmo 3.1. По сообщению VentureBeat, ключевое отличие — более длительное обучение с подкреплением, что привело к заметному росту производительности в задачах на рассуждение, математику и следование инструкциям.

Что изменилось в Olmo 3.1

Версия 3.1 затронула две из трех моделей оригинального семейства:

  • Olmo 3.1 Think 32B — флагманская модель для продвинутых исследований.
  • Olmo 3.1 Instruct 32B — оптимизирована для диалога, использования инструментов и выполнения инструкций.

Третья модель, Olmo 3-Base (для программирования, понимания текста и математики), осталась без изменений.

Для создания Olmo 3.1 Think 32B исследователи Ai2 возобновили обучение с подкреплением оригинальной модели, добавив к нему 21 день тренировок на 224 графических процессорах с использованием набора данных Dolci-Think-RL. Как указано в блоге института, это привело к «существенному приросту» в бенчмарках: улучшение на 5+ баллов в AIME, 4+ балла в ZebraLogic, 4+ балла в IFEval и 20+ баллов в IFBench.

Это классический пример того, как «больше GPU-дней» становится самым простым рецептом для улучшения моделей в эпоху, когда архитектурные прорывы случаются реже. Ai2 не изобрел новый алгоритм, а просто дал своей модели больше времени на «размышление» в симуляции. Результаты впечатляют, но и цена вопроса — три недели работы сотен дорогих видеокарт — заставляет задуматься об устойчивости такой гонки. Впрочем, для корпоративных клиентов, которым нужна конкретная производительность здесь и сейчас, такие апдейты — чистый выигрыш.

Модель Olmo 3.1 Instruct 32B была создана путем применения рецепта настройки, проверенного на меньшей 7-миллиардной версии, к 32-миллиардному варианту. Как заявили в Ai2 в сообщении в X, это «самая способная полностью открытая чат-модель на сегодня» в своем классе.

Результаты на бенчмарках

Новые модели, как и ожидалось, превзошли своих предшественниц. Olmo 3.1 Think показала лучшие результаты, чем Qwen 3 32B, в бенчмарке AIME 2025 и приблизилась к показателям Gemma 27B.

Модель Olmo 3.1 Instruct также продемонстрировала сильные результаты на фоне других открытых моделей, даже обойдя Gemma 3 в математических тестах.

На данный момент новые модели доступны для тестирования в Ai2 Playground и на Hugging Face. Доступ через API будет открыт в ближайшее время.