Tencent создала метод самообучения языковых моделей без данных

Tencent AI Lab разработала фреймворк R-Zero, позволяющий языковым моделям самообучаться без человеческих данных через co-evolution двух моделей.

Оглавление

Проблема самообучающихся языковых моделей
Как работает R-Zero
Результаты экспериментов
Ограничения и перспективы

Исследователи из Tencent AI Lab и Вашингтонского университета в Сент-Луисе разработали революционный фреймворк R-Zero, который позволяет большим языковым моделям самостоятельно улучшаться без какого-либо человеческого вмешательства или размеченных данных. Технология использует обучение с подкреплением для генерации собственных тренировочных данных с нуля, решая одну из главных проблем создания саморазвивающихся ИИ-систем.

Проблема самообучающихся языковых моделей

Идея саморазвивающихся ИИ-систем предполагает создание моделей, которые могут автономно генерировать, улучшать и обучаться на собственном опыте. Однако основной вызов заключается в том, что обучение таких моделей требует огромных объемов высококачественных задач и меток, которые выступают в качестве сигналов обучения.

Полная зависимость от человеческих аннотаторов не только дорога и медленна, но и создает фундаментальное ограничение — потенциальные возможности ИИ ограничиваются тем, чему могут научить люди. Существующие методы без меток все еще полагаются на предсуществующие наборы задач, что ограничивает их применимость в действительно саморазвивающихся сценариях.

Как работает R-Zero

Фреймворк R-Zero предназначен для обучения языковых моделей, способных к рассуждению, которые могут развиваться с нуля без внешних данных. Процесс начинается с единственной базовой модели, которая разделяется на две роли: «Challenger» и «Solver». Эти две модели оптимизируются независимо, но развиваются вместе через непрерывный цикл взаимодействия.

Цель Challenger — создавать новые задачи, которые находятся точно на границе текущих возможностей Solver — не слишком легкие и не невозможные. Solver в свою очередь получает награду за решение этих все более сложных задач.

Схема взаимодействия модулей Challenger и Solver в архитектуре R-Zero — Источник: www.venturebeat.com

Как объяснил в комментариях VentureBeat Ченгсонг Хуанг, соавтор исследования и докторант Вашингтонского университета: «Мы обнаружили, что главная сложность — не в генерации ответов… а в создании высококачественных, новых и постепенно более сложных вопросов. Хорошие учителя встречаются гораздо реже, чем хорошие ученики».

После того как Challenger генерирует достаточно вопросов, они фильтруются для разнообразия и компилируются в тренировочный набор данных. На этапе обучения Solver дорабатывается на этих сложных вопросах. «Правильный» ответ для каждого вопроса определяется большинством голосов из предыдущих попыток Solver.

Результаты экспериментов

Исследователи протестировали R-Zero на нескольких открытых LLM, включая модели из семейств Qwen3 и OctoThinker. Модели сначала обучались на математических задачах, а затем проверялась возможность переноса приобретенных навыков рассуждения на другие комплексные бенчмарки:

Модель Qwen3-4B-Base показала улучшение на +6.49 баллов в среднем на математических бенчмарках
Более крупная модель Qwen3-8B-Base увеличила средний математический балл на +5.51 после трех итераций
Навыки, приобретенные из математических задач, эффективно переносились на задачи общего рассуждения

График сравнения улучшений R-Zero в различных тестах производительности — Источник: www.venturebeat.com

Ирония в том, что мы пытаемся создать ИИ, который превзойдет человеческие возможности, но сталкиваемся с классической проблемой образования: качество обучения падает, когда ученик начинает превосходить учителя. R-Zero — это элегантное инженерное решение, но оно лишь отодвигает проблему на несколько итераций, пока качество самогенерируемых данных не начинает деградировать. Настоящий прорыв будет, когда мы найдем способ поддерживать стабильное качество «учителя» в совместно-эволюционном процессе.

Ограничения и перспективы

Исследователи выявили критическую проблему: по мере того как Challenger успешно генерирует все более сложные задачи, способность Solver производить надежные «правильные» ответы через большинство голосов начинает снижаться. Точность самогенерируемых меток упала с 79% в первой итерации до 63% к третьей по сравнению с сильной oracle LLM такой как GPT-4.

Хуанг признал, что это фундаментальная проблема для парадигмы саморазвития: «Наша работа — доказательство концепции, демонстрирующее потенциал этого подхода, но мы признаем, что поддержание стабильного долгосрочного улучшения без выхода на плато — значительное препятствие».

Текущий механизм лучше всего подходит для областей, таких как математика, где правильность может быть объективно определена. Для предприятий подход «с нулевыми данными» может стать изменяющим правила игры, особенно в нишевых областях, где высококачественные данные редки или отсутствуют.

Новости

Tencent создала метод самообучения языковых моделей без человеческих данных

Проблема самообучающихся языковых моделей

Как работает R-Zero

Результаты экспериментов

Ограничения и перспективы

Еще интереснее

Anthropic открывает офис в Сеуле для расширения в АТР

OpenAI запускает функцию Company Knowledge для корпоративных версий ChatGPT

NVIDIA Nemotron открывает исходники моделей и данных для ускорения развития ИИ

Amazon Bedrock преобразует естественный язык в запросы Gremlin для графовых баз данных

Оставить комментарий