Оглавление
Исследователь OpenAI Джерри Творек поделился первыми деталями о новой модели искусственного интеллекта, которая может ознаменовать существенный скачок производительности в определенных областях, сообщает The Decoder.
Так называемая модель-«победитель Международной математической олимпиады» (IMO gold medal winner) должна дебютировать в «гораздо лучшей версии» в ближайшие месяцы. Как отмечает Творек, система все еще находится в активной разработке и готовится к более широкому публичному выпуску.
Когда критик OpenAI Гэри Маркус спросил, предназначена ли модель для замены GPT-5.x или служит специализированным решением для конкретных задач, Творек ответил, что OpenAI никогда не выпускала узконаправленные модели. Он объяснил, что «публичные релизы сегодня предъявляют высокие требования к уровню доработки», и добавил: «В то же время эта модель очевидно не исправит все ограничения современных языковых моделей — только некоторые».
Способность к обобщению за пределами математики
Способность модели к обобщению за пределами математики вызвала дискуссии. Во время презентации OpenAI подчеркнула, что система была «очень слабо» оптимизирована для Международной математической олимпиады. Вместо специализированной математической системы она построена на более общих достижениях в обучении с подкреплением и вычислительных мощностях — без использования внешних инструментов вроде интерпретаторов кода. Все работает исключительно через естественный язык.
Это различие важно, потому что обучение с подкреплением все еще испытывает трудности с задачами, не имеющими четких ответов, и многие исследователи считают эту проблему нерешенной. Прорыв здесь помог бы подтвердить идею, что масштабирование моделей рассуждений оправдывает колоссальное увеличение вычислительных мощностей — один из центральных вопросов в продолжающихся дебатах о возможном пузыре ИИ.
Верифицируемость как структурное ограничение
Бывший исследователь OpenAI и Tesla Андрей Карпатый указал на более глубокое структурное ограничение: в том, что он называет парадигмой «Программное обеспечение 2.0», ключевой проблемой является не то, насколько хорошо определена задача, а то, насколько хорошо она может быть верифицирована. Только задачи со встроенной обратной связью — например, с правильными или неправильными ответами или четкими сигналами вознаграждения — могут быть эффективно обучены с использованием обучения с подкреплением.
«Чем больше задача/работа поддается проверке, тем более она поддается автоматизации в новой парадигме программирования», — пишет Карпатый. «Если она не поддается проверке, она должна получаться из магии нейронных сетей обобщения (скрестив пальцы) или через более слабые средства, такие как имитация». Эта динамика, по его словам, определяет «неровный фронт» прогресса языковых моделей.
Программное обеспечение 1.0 легко автоматизирует то, что можно специфицировать. Программное обеспечение 2.0 легко автоматизирует то, что можно верифицировать.
Вот почему такие области, как математика, программирование и структурированные игры, развиваются так быстро, иногда даже превосходя экспертные человеческие возможности. Задача Международной математической олимпиады точно попадает в эту категорию. В отличие от этого, прогресс в менее верифицируемых областях — таких как творческая работа, стратегия или контекстно-зависимые рассуждения — застопорился.
Взгляды Творека и Карпати совпадают: модель IMO показывает, что верифицируемые задачи могут быть систематически масштабированы с использованием методов, основанных на рассуждениях, и таких задач много. Но для всего остального исследователи все еще полагаются на надежду, что большие нейронные сети будут хорошо обобщаться за пределы своих тренировочных данных.
Почему обычные пользователи могут не заметить разницы
Даже если модели превзойдут людей в строго верифицируемых областях, таких как математика, это не значит, что обычные пользователи почувствуют влияние. Эти достижения все еще могут ускорить исследования в таких областях, как доказательства, оптимизация или проектирование моделей, но они вряд ли изменят то, как большинство людей взаимодействует с ИИ.
OpenAI недавно отметила, что многие пользователи больше не распознают подлинные улучшения качества модели, потому что типичные языковые задачи стали тривиальными, по крайней мере в пределах известных ограничений языковых моделей, таких как галлюцинации или фактические ошибки.
Прорывы вроде математической олимпиады демонстрируют фундаментальный прогресс в рассуждениях, но для среднестатистического пользователя ChatGPT это выглядит как очередное обновление, которое все равно иногда генерирует ерунду. Парадокс современного ИИ: машина может решать сложнейшие математические задачи, но продолжает путаться в простых бытовых вопросах.
Оставить комментарий