Оглавление

Исследователи из Центра ответственного децентрализованного интеллекта (RDI) Калифорнийского университета в Беркли представили Agents’ Last Exam (ALE) — амбициозный бенчмарк, призванный проверить способность нейросетей выполнять сложные профессиональные задачи в долгосрочной перспективе. Как сообщает VentureBeat, результаты первых испытаний оказались неожиданными для индустрии, привыкшей к доминированию определенных архитектур в конкретных дисциплинах.

В ходе тестирования модель GPT-5.5 от OpenAI, работающая через связку Codex, заняла первую строчку рейтинга с результатом 24,0%. Это позволило ей обойти новейшую модель Claude Fable 5 от Anthropic, которая была представлена буквально накануне и считалась фаворитом, но в итоге довольствовалась лишь третьим местом с показателем 22,0%. Несмотря на лидерство, цифры наглядно демонстрируют, что даже лучшие системы пока с трудом справляются с реальной работой.

Архитектура против «насмотренности»

Разработчики ALE сознательно отошли от привычных текстовых головоломок, создав систему оценки, которую практически невозможно обмануть за счет простого запоминания данных. Вместо статических вопросов агенты погружаются в среду Generalist Computer-Use Agent (GCUA), где им приходится взаимодействовать с операционными системами Linux и Windows так, как это делает человек: через консоль и графический интерфейс.

Методология теста разделяет возможности ИИ на пять функциональных уровней, которые метафорически описываются как «мозг» для рассуждений, «глаза» для визуального восприятия и «руки» для манипуляций с инструментами. Чтобы пройти испытание, модель должна, например, запустить сложное инженерное ПО, найти нужные данные в документах и выдать готовый результат в виде 3D-модели или аналитического отчета.

Победа GPT-5.5 над свежим флагманом Anthropic подчеркивает критическую важность устойчивости контекста. В то время как Claude демонстрирует блестящую логику на коротких дистанциях, в многочасовых рабочих процессах ALE модель начинает терять нить инструкций. Однако радоваться рано: общая планка прохождения в 24% — это признание того, что современные агенты все еще остаются ненадежными стажерами, неспособными завершить три четверти порученных дел без фатальных ошибок.

Индустриальный масштаб и защита от утечек

Особое внимание в ALE уделено реалистичности: 1 490 задач теста базируются на официальной федеральной классификации профессий США (O*NET) и охватывают 55 различных отраслей. Модели сталкиваются с вызовами, которые ежедневно решают профессионалы в Adobe After Effects, Unreal Engine или специализированном медицинском софте для анализа нейровизуализации.

Для борьбы с «загрязнением» данных, когда тестовые задания случайно попадают в обучающую выборку новых моделей, создатели ALE применили стратегию закрытого набора. Публично доступны лишь 10% заданий, тогда как основной массив остается конфиденциальным и регулярно обновляется. Это гарантирует, что высокий балл в таблице лидеров — результат реальных навыков ИИ, а не следствие хорошей памяти.

Текущие результаты на самом сложном уровне Last-Exam остаются отрезвляющими: большинство протестированных систем, включая Claude Opus 4.8 и Gemini CLI, показали нулевой результат. Для бизнеса это служит четким сигналом: несмотря на маркетинговые обещания полной автоматизации, путь к созданию по-настоящему автономного цифрового сотрудника только начинается.