Оглавление
По сообщению The Decoder, OpenAI запустила GDPval — новый стандарт для оценки производительности ИИ в реальных знаниях. Бенчмарк охватывает 44 профессии из девяти ключевых отраслей экономики, каждая из которых составляет более 5% ВВП США.
Реальные задачи вместо абстрактных тестов
В отличие от традиционных бенчмарков, GDPval использует сложные профессиональные задания с реальными требованиями и материалами. Например, инженер-механик может получить задание спроектировать испытательный стенд для кабельной системы, предоставить 3D-модель и подготовить презентацию PowerPoint на основе технических спецификаций.

Каждое решение оценивается отраслевыми экспертами в слепых тестах, где сравниваются результаты ИИ и человеческие эталоны. Оценки выставляются по шкале: «лучше», «так же хорошо» или «хуже».
Формат имеет значение
Обновление от 27 сентября показывает интересную закономерность: результаты ИИ-моделей сильно зависят от формата файлов. В текстовых задачах модели показывают самые низкие показатели: Claude Opus 4.1 — всего 14%, GPT-5 — 22%.

Ситуация кардинально меняется для других форматов:
- Для PDF Claude показывает 46% побед
- Для Excel-файлов (xlsx) — 45%
- Для презентаций PowerPoint (pptx) — 48%
- В категории «другие» форматы — достигает 50%, сравниваясь с профессионалами
GPT-5 демонстрирует аналогичную тенденцию: его результаты для структурированных или визуальных форматов значительно выше, чем для «чистого текста».
Оказывается, что ИИ преуспевает именно там, где человеческие слабости наиболее выражены — в любви к красивой упаковке. Пока модели учатся обманывать экспертов через эстетику оформления, а не через суть содержания. Это напоминает студента, который сдает блестяще оформленную, но пустую работу — и получает высший балл.
Лидирующие модели приближаются к экспертам
Ранние результаты показывают, что топовые модели вроде GPT-5 и Claude Opus 4.1 близки к экспертному уровню. Примерно в половине из 220 опубликованных задач эксперты оценили работу ИИ как равную или лучшую по сравнению с человеческим эталоном.

OpenAI также отмечает значительный рост эффективности. Модели завершали задачи примерно в 100 раз быстрее и в 100 раз дешевле, если считать только время инференса и стоимость API.
Ограничения и перспективы
Текущая версия GDPval ограничена «одноразовыми» задачами без обратной связи, построения контекста или итераций. Задания не включают реальную неопределенность, которая возникает при неясных требованиях или общении с коллегами и клиентами.
OpenAI подчеркивает, что современные модели ИИ не заменяют целые профессии. Они лучше всего справляются с автоматизацией повторяющихся, четко структурированных задач. Тестовый набор также довольно ограничен — всего около 30 заданий на профессию.
Будущие версии GDPval будут приближаться к реальным рабочим условиям с более интерактивными задачами и встроенной неопределенностью. Долгосрочная цель — систематически отслеживать экономическое влияние ИИ и его изменение на рынке труда.
Оставить комментарий