Исследователи из Meta* FAIR и Национального университета Сингапура разработали революционный подход к обучению систем искусственного интеллекта — фреймворк Self-Play In Corpus Environments (SPICE), который позволяет ИИ-системам самостоятельно совершенствовать свои способности к рассуждению без участия человека.
Проблема самообучающегося ИИ
Современные методы обучения ИИ сталкиваются с фундаментальными ограничениями. Подход reinforcement learning with verifiable rewards (RLVR), где модели получают награду за правильные ответы, сильно зависит от человечески курируемых наборов задач и специализированной инженерии вознаграждений, что затрудняет масштабирование.
Самообучение (self-play), когда модель совершенствуется, соревнуясь сама с собой, выглядит перспективнее, но существующие методы страдают от двух критических проблем:
- Фактические ошибки в сгенерированных вопросах и ответах накапливаются, создавая порочный круг галлюцинаций
- При симметрии информации между генератором задач и решателем системы не могут создавать по-настоящему новые вызовы и зацикливаются на повторяющихся паттернах
Как отмечают исследователи в своей работе: «Эти систематические эмпирические неудачи указывают, что самосовершенствование требует взаимодействия с внешним источником, предоставляющим разнообразную, проверяемую обратную связь, а не замкнутого цикла чистой интроспекции.»
Архитектура SPICE
SPICE использует единую модель в двух различных ролях:
- «Challenger» создает учебный план сложных задач из большого корпуса документов
- «Reasoner» пытается решить эти задачи без доступа к исходным документам
Эта установка ломает информационную симметрию, ограничивающую другие методы самообучения, поскольку Reasoner не имеет доступа к документам и знаниям, которые Challenger использует для генерации задач.
Привязка задач к обширному и разнообразному корпусу документов предотвращает галлюцинации, закрепляя вопросы и ответы в реальном контенте. Для надежного самосовершенствования ИИ-системам нужны внешние источники заземления. Поэтому LLM-агенты должны учиться на взаимодействии с людьми и реальным миром, а не только на собственных выводах, чтобы избежать накопления ошибок.
Адверсариальная динамика между двумя ролями создает автоматический учебный план. Challenger получает вознаграждение за генерацию проблем, которые одновременно разнообразны и находятся на границе возможностей Reasoner (не слишком легкие, но и не невозможные). Reasoner получает награду за правильные ответы. Это симбиотическое взаимодействие подталкивает обоих агентов к постоянному открытию и преодолению новых вызовов.
Поскольку система использует сырые документы вместо предопределенных пар вопрос-ответ, она может генерировать разнообразные форматы задач, такие как множественный выбор и вопросы со свободной формой ответа.
Эта гибкость позволяет применять SPICE к любой предметной области, устраняя узкое место, которое ограничивало предыдущие методы узкими областями вроде математики и программирования. Это также снижает зависимость от дорогих человечески курируемых наборов данных для специализированных областей, таких как юридический или медицинский анализ.
SPICE в действии
Исследователи оценили SPICE на нескольких базовых моделях, включая Qwen3-4B-Base и OctoThinker-3B-Hybrid-Base.
Они сравнили его производительность с базовыми уровнями, такими как базовая модель без обучения, модель Reasoner, обученная с фиксированным «Strong Challenger» (Qwen3-32B-Instruct), и чистыми методами самообучения, такими как R-Zero и Absolute Zero. Оценка охватывала широкий спектр математических и общих бенчмарков рассуждений.
Для всех моделей SPICE последовательно превосходил базовые уровни, демонстрируя значительные улучшения как в математических, так и в общих задачах рассуждения.
Результаты показывают, что способности к рассуждению, развитые через самообучение, заземленное в корпусе, переносятся широко на разные модели благодаря разнообразному внешнему корпусу знаний, который они использовали.
Ключевой вывод заключается в том, что адверсариальная динамика создает эффективный автоматический учебный план. По мере прогресса обучения Challenger учится генерировать все более сложные проблемы.
В одном эксперименте процент успешных решений Reasoner на фиксированном наборе проблем увеличился с 55% до 85% со временем, показывая улучшенные возможности.
Между тем, более поздние версии Challenger смогли генерировать вопросы, которые снизили процент успешных решений Reasoner на ранней стадии с 55% до 35%, подтверждая, что обе роли успешно совместно эволюционируют.
SPICE выглядит как долгожданный прорыв в области автономного обучения ИИ, но возникает вопрос: насколько устойчива эта система к реальным условиям? Адверсариальная гонка между Challenger и Reasoner напоминает вечную битву создателей и взломщиков систем безопасности. Интересно, сможет ли такой подход привести к созданию действительно автономных систем, способных адаптироваться к непредсказуемым реальным сценариям, или мы получим очередную высоко специализированную лабораторную игрушку.
Исследователи заключают, что этот подход представляет собой смену парадигмы в методах самосовершенствующегося рассуждения от «замкнутого цикла самообучения, который часто стагнирует из-за дрейфа галлюцинаций, к открытому совершенствованию через взаимодействие с обширными, проверяемыми знаниями, встроенными в веб-корпуса документов».
В настоящее время корпус, используемый для SPICE, представляет человеческий опыт, зафиксированный в тексте. Конечная цель — создание самосовершенствующихся систем, которые генерируют вопросы на основе взаимодействий с реальностью, включая физический мир, интернет и человеческие взаимодействия через множественные модальности, такие как видео, аудио и данные сенсоров.
Источник новости: VentureBeat
*Meta признана экстремистской и запрещена в РФ
Оставить комментарий