Оглавление
Команда разработчиков Alibaba Qwen представила новый алгоритм обучения под названием FIPO (Future-KL Influenced Policy Optimization), который заставляет модели рассуждать глубже и дольше. В отличие от стандартных методов, где поощрение распределяется по цепочке мыслей равномерно, новый подход приоритизирует те шаги, которые действительно влияют на верный результат. Как сообщает издание The Decoder, это позволило увеличить длину «раздумий» системы более чем в два раза.
Проблема классического обучения с подкреплением (RL) заключается в его прямолинейности: модель получает сигнал «правильно» или «неправильно» только в самом конце, после чего награда размазывается по всем токенам. Для нейросети запятая становится столь же ценной, как и ключевой логический переход. FIPO меняет правила игры, анализируя, как конкретный шаг меняет дальнейшее поведение модели и помогает ли он избежать тупиковых ветвей рассуждений.
Механика взвешенных наград и отказ от лишних моделей
Разработчики отмечают, что популярные методы вроде GRPO часто приводят к стагнации: цепочки рассуждений быстро достигают определенного лимита и перестают расти. FIPO обходит этот барьер за счет точного «кредитного скоринга» каждого шага. Алгоритм вычисляет кумулятивный сдвиг вероятностей последующих токенов, вознаграждая те из них, что задают верный вектор мысли, и наказывая за уход в логические дебри.
Любопытно, что Qwen team удалось добиться впечатляющих результатов без использования вспомогательных оценочных моделей, которые обычно требуют предварительного обучения на огромных массивах данных. Это не только упрощает процесс, но и исключает риск «утечки» знаний из подсказок-помощников. Чтобы система не шла вразнос, инженеры внедрили фильтрацию экстремальных значений, без которой обучение просто обрывалось, а длина ответов резко сокращалась.
Способность модели к самопроверке через RL без синтетических данных — это весомый шаг, но стоит помнить: математические тесты — лишь стерильный полигон. Удлинение цепочки рассуждений неизбежно раздувает вычислительные расходы, а реальная польза в кодинге или логике пока не подтверждена. Мы наблюдаем за тем, как ИИ учится перепроверять себя, но пока это выглядит как очень дорогой способ решать школьные задачи по геометрии.
Эволюция мышления: от шаблонов к верификации
В процессе тестирования на модели Qwen2.5-32B-Base исследователи зафиксировали любопытную хронологию развития «интеллекта» системы, которую можно разделить на четыре этапа:
- Поверхностное планирование: создание пустых структур без реальных вычислений с галлюцинациями в финале.
- Линейная логика: чистая последовательность действий до первого полученного ответа без попыток оглянуться назад.
- Спонтанная самопроверка: внезапное желание модели перепроверить промежуточный итог, сменив метод решения, например, с алгебры на геометрию.
- Системная верификация: многократные прогоны вычислений и полная перепроверка всех этапов вывода.
На математическом бенчмарке AIME 2024 точность модели выросла с 50 до 56 процентов, при этом средняя длина цепочки рассуждений увеличилась с 4 000 до 10 000 токенов. Это ставит FIPO в один ряд с такими тяжеловесами, как OpenAI o1-mini, причем результат достигнут исключительно через алгоритмические улучшения обучения, а не за счет гигантских порций готовых примеров рассуждений.
Несмотря на успехи в математике, вопрос масштабирования на другие области остается открытым. Обучение «чистым» методом подкрепления все еще уступает дистилляции знаний из более крупных моделей. Тем не менее, Alibaba планирует сделать систему обучения открытой, что даст сообществу инструмент для экспериментов с глубоким «мышлением» ИИ без привязки к проприетарным наборам данных.
Оставить комментарий