Оглавление

Исследователи из Meta* FAIR и Национального университета Сингапура разработали революционный подход к обучению систем искусственного интеллекта — фреймворк Self-Play In Corpus Environments (SPICE), который позволяет ИИ-системам самостоятельно совершенствовать свои способности к рассуждению без участия человека.

Проблема самообучающегося ИИ

Современные методы обучения ИИ сталкиваются с фундаментальными ограничениями. Подход reinforcement learning with verifiable rewards (RLVR), где модели получают награду за правильные ответы, сильно зависит от человечески курируемых наборов задач и специализированной инженерии вознаграждений, что затрудняет масштабирование.

Самообучение (self-play), когда модель совершенствуется, соревнуясь сама с собой, выглядит перспективнее, но существующие методы страдают от двух критических проблем:

  • Фактические ошибки в сгенерированных вопросах и ответах накапливаются, создавая порочный круг галлюцинаций
  • При симметрии информации между генератором задач и решателем системы не могут создавать по-настоящему новые вызовы и зацикливаются на повторяющихся паттернах

Как отмечают исследователи в своей работе: «Эти систематические эмпирические неудачи указывают, что самосовершенствование требует взаимодействия с внешним источником, предоставляющим разнообразную, проверяемую обратную связь, а не замкнутого цикла чистой интроспекции.»

Архитектура SPICE

SPICE использует единую модель в двух различных ролях:

  • «Challenger» создает учебный план сложных задач из большого корпуса документов
  • «Reasoner» пытается решить эти задачи без доступа к исходным документам

Эта установка ломает информационную симметрию, ограничивающую другие методы самообучения, поскольку Reasoner не имеет доступа к документам и знаниям, которые Challenger использует для генерации задач.

Привязка задач к обширному и разнообразному корпусу документов предотвращает галлюцинации, закрепляя вопросы и ответы в реальном контенте. Для надежного самосовершенствования ИИ-системам нужны внешние источники заземления. Поэтому LLM-агенты должны учиться на взаимодействии с людьми и реальным миром, а не только на собственных выводах, чтобы избежать накопления ошибок.

Адверсариальная динамика между двумя ролями создает автоматический учебный план. Challenger получает вознаграждение за генерацию проблем, которые одновременно разнообразны и находятся на границе возможностей Reasoner (не слишком легкие, но и не невозможные). Reasoner получает награду за правильные ответы. Это симбиотическое взаимодействие подталкивает обоих агентов к постоянному открытию и преодолению новых вызовов.

Поскольку система использует сырые документы вместо предопределенных пар вопрос-ответ, она может генерировать разнообразные форматы задач, такие как множественный выбор и вопросы со свободной формой ответа.

Эта гибкость позволяет применять SPICE к любой предметной области, устраняя узкое место, которое ограничивало предыдущие методы узкими областями вроде математики и программирования. Это также снижает зависимость от дорогих человечески курируемых наборов данных для специализированных областей, таких как юридический или медицинский анализ.

SPICE в действии

Исследователи оценили SPICE на нескольких базовых моделях, включая Qwen3-4B-Base и OctoThinker-3B-Hybrid-Base.

Они сравнили его производительность с базовыми уровнями, такими как базовая модель без обучения, модель Reasoner, обученная с фиксированным «Strong Challenger» (Qwen3-32B-Instruct), и чистыми методами самообучения, такими как R-Zero и Absolute Zero. Оценка охватывала широкий спектр математических и общих бенчмарков рассуждений.

Для всех моделей SPICE последовательно превосходил базовые уровни, демонстрируя значительные улучшения как в математических, так и в общих задачах рассуждения.

Результаты показывают, что способности к рассуждению, развитые через самообучение, заземленное в корпусе, переносятся широко на разные модели благодаря разнообразному внешнему корпусу знаний, который они использовали.

Ключевой вывод заключается в том, что адверсариальная динамика создает эффективный автоматический учебный план. По мере прогресса обучения Challenger учится генерировать все более сложные проблемы.

В одном эксперименте процент успешных решений Reasoner на фиксированном наборе проблем увеличился с 55% до 85% со временем, показывая улучшенные возможности.

Между тем, более поздние версии Challenger смогли генерировать вопросы, которые снизили процент успешных решений Reasoner на ранней стадии с 55% до 35%, подтверждая, что обе роли успешно совместно эволюционируют.

SPICE выглядит как долгожданный прорыв в области автономного обучения ИИ, но возникает вопрос: насколько устойчива эта система к реальным условиям? Адверсариальная гонка между Challenger и Reasoner напоминает вечную битву создателей и взломщиков систем безопасности. Интересно, сможет ли такой подход привести к созданию действительно автономных систем, способных адаптироваться к непредсказуемым реальным сценариям, или мы получим очередную высоко специализированную лабораторную игрушку.

Исследователи заключают, что этот подход представляет собой смену парадигмы в методах самосовершенствующегося рассуждения от «замкнутого цикла самообучения, который часто стагнирует из-за дрейфа галлюцинаций, к открытому совершенствованию через взаимодействие с обширными, проверяемыми знаниями, встроенными в веб-корпуса документов».

В настоящее время корпус, используемый для SPICE, представляет человеческий опыт, зафиксированный в тексте. Конечная цель — создание самосовершенствующихся систем, которые генерируют вопросы на основе взаимодействий с реальностью, включая физический мир, интернет и человеческие взаимодействия через множественные модальности, такие как видео, аудио и данные сенсоров.

Источник новости: VentureBeat

*Meta признана экстремистской и запрещена в РФ