Оглавление
Сообщает The Decoder, что известный исследователь ИИ Андрей Карпати, ранее работавший в Tesla и OpenAI, выразил серьезные сомнения в эффективности обучения с подкреплением (reinforcement learning, RL) для тренировки больших языковых моделей. По его мнению, этот подход достиг своих пределов и требует принципиально новых парадигм.
Проблемы с функциями вознаграждения
Карпати называет функции вознаграждения в RL «крайне ненадежными» и легко подверженными манипуляциям. Он отмечает, что текущие подходы плохо подходят для обучения интеллектуальному решению задач, поскольку основаны на упрощенных метриках успеха.
Это особенно важно, потому что современные «рассуждающие» модели сильно зависят от обучения с подкреплением, а компании вроде OpenAI считают этот подход масштабируемым и адаптируемым к новым задачам.
Ирония в том, что один из архитекторов современного ML-ренессанса предлагает похоронить его ключевой метод. Карпати прав: RL отлично работает в контролируемых средах типа игр, но перенос его на сложные когнитивные задачи напоминает попытку забить гвозди микроскопом. Индустрия уперлась в фундаментальное ограничение: нельзя создать интеллект, просто оптимизируя под набор заранее заданных метрик.
Альтернативные подходы
Несмотря на критику, Карпати признает, что RL-тонкая настройка все же превосходит классическое обучение с учителем (SFT), которое просто имитирует человеческие ответы. Однако настоящий прорыв, по его мнению, потребует принципиально иных механизмов обучения.
Он предлагает два перспективных направления:
- Системное обучение с помощью промптов — обучение на уровне токенов и контекста без изменения весов модели
- Интерактивные среды — цифровые пространства, где модели могут действовать и получать обратную связь
Интерактивные среды как новая парадигма
Карпати видит потенциал в обучении LLM через интерактивные среды — цифровые пространства, где модели могут действовать и наблюдать последствия своих действий. Ранние этапы обучения полагались на интернет-тексты для предварительного обучения и данные вопросов-ответов для тонкой настройки, но обучение в средах дает моделям реальную обратную связь на основе их фактических действий.
С этим подходом LLM могли бы выйти за рамки простого угадывания человеческих ответов и начать учиться принимать решения, проверяя, насколько хорошо эти выборы работают в контролируемых сценариях. Карпати говорит, что эти среды можно использовать как для обучения, так и для оценки. Основная задача сейчас — создание большого, разнообразного и качественного набора сред, подобного текстовым наборам данных, используемым на ранних этапах обучения.
Мысли Карпати согласуются с призывами к смене парадигмы от исследователей DeepMind Ричарда Саттона и Дэвида Сильвера в их эссе «Добро пожаловать в эру опыта». Оба утверждают, что следующая волна продвинутого ИИ не может просто копировать человеческий язык или суждения. Вместо этого, говорят они, будущему ИИ нужно стать более устойчивым, творческим и адаптируемым, обучаясь непосредственно на опыте и независимых действиях.
Оставить комментарий