Системные ошибки GPT-5.5 и Opus 4.7 в тесте ARC-AGI-3

Исследование ARC-AGI-3 показало, что даже передовые модели вроде GPT-5.5 совершают критические ошибки в логике, не дотягивая до 1% успеха.

Оглавление

Фрагментарное видение и ложные аналогии
Разные подходы к одним и тем же тупикам

Даже самые совершенные языковые модели, претендующие на звание «интеллекта нового поколения», продолжают спотыкаться там, где обычный человек справляется без подготовки. Как сообщает The Decoder, недавнее исследование ARC выявило три глубоких системных изъяна в логике работы нейросетей, которые мешают им достичь уровня человеческого мышления.

Специалисты проанализировали 160 сессий тестирования OpenAI GPT-5.5 и Anthropic Opus 4.7 на бенчмарке ARC-AGI-3. Этот тест имитирует интерактивные игровые среды, где агенты должны самостоятельно исследовать правила и строить гипотезы. Результаты оказались отрезвляющими: обе модели не смогли преодолеть порог в 1%, в то время как люди решают подобные задачи с легкостью.

Фрагментарное видение и ложные аналогии

Первая выявленная проблема заключается в том, что модели отлично фиксируют локальные детали, но не способны собрать их в единую картину мира. Например, Opus 4.7 может быстро понять, что определенное действие вращает объект, но не осознает, что это вращение — лишь подготовительный этап для сложной последовательности действий по заполнению контейнера краской.

Второй паттерн ошибок связан с «галлюцинациями» на основе обучающих данных. Столкнувшись с неизвестной механикой, модели начинают судорожно подбирать аналогии из классических игр. Исследователи зафиксировали, как GPT-5.5 пыталась применять логику Breakout или Pong там, где требовалось простое сочетание клавиш. Эта склонность видеть знакомые шаблоны в хаосе мешает формированию объективного понимания ситуации.

Третья, пожалуй, самая коварная ошибка — это закрепление ложных выводов. Если модель случайно решает уровень, используя неверную логику, она принимает этот успех за истину. В последующих заданиях этот «ошибочный опыт» наслаивается, превращаясь в жесткую догму, которая в итоге заводит алгоритм в тупик, из которого он уже не может выбраться самостоятельно.

GPT-5.5 и Opus демонстрируют феноменальную эрудицию, но их неспособность к абстрактному выводу превращает сложные задачи в дорогостоящее гадание на кофейной гуще. Пока модели не научатся ставить под сомнение собственные теории, их полезность в нестандартных операционных средах останется под вопросом. Мы строим небоскребы на фундаменте из ассоциаций.

Разные подходы к одним и тем же тупикам

Интересно наблюдать за тем, как именно ошибаются разные архитектуры. Anthropic Opus 4.7 склонен к излишней самоуверенности: он быстро формирует теорию и агрессивно придерживается ее, даже если она явно противоречит новым фактам. Это напоминает разработчика, который пытается исправить баг, основываясь на ложной предпосылке, и игнорирует все сообщения об ошибках компиляции.

У GPT-5.5 наблюдается обратный эффект — неспособность к фиксации. Модель генерирует массу верных догадок, но не может выбрать одну и превратить ее в четкий план действий. Она постоянно расширяет пространство поиска, перебирая бесконечные варианты вместо того, чтобы сосредоточиться на проверке наиболее вероятного пути. Как отметил Грег Камрадт из ARC Prize Foundation, разница здесь в качестве сжатия информации: один «сжимает» данные в неверную теорию, другой не может сжать их вовсе.

Эти выводы подтверждают тезисы многих критиков, считающих современные LLM лишь продвинутыми интерполяторами паттернов. Если нейросеть называет любую задачу с мячом и платформой «Арканоидом», она не рассуждает, а просто ищет ближайшую точку в своем векторном пространстве. Для создания по-настоящему автономных агентов, способных работать с недокументированными API или уникальными бизнес-процессами, потребуются иные подходы к архитектуре мышления.

Новости

Исследование выявило 3 ошибки в логике, из-за которых ИИ спотыкается даже на простых задачах

Фрагментарное видение и ложные аналогии

Разные подходы к одним и тем же тупикам

Еще интереснее

OpenAI пришлось донастраивать ChatGPT, потому что он начал бредить гремлинами

Tencent выпустила ИИ-модель на 440 мегабайт для офлайн-перевода на смартфонах

Apple представила LaDiR: гибридный метод рассуждений для языковых моделей

Обученная на старых документах ИИ-модель Talkie умеет воссоздавать мир образца 1930 года

Оставить комментарий