Оглавление

NewsBytes пишет, что OpenAI представила новый бенчмарк GDPval для сравнения своих ИИ-моделей с профессионалами из различных отраслей. Это первая попытка компании измерить, насколько близки ее системы к превосходству над людьми в экономически значимой работе.

Методология тестирования: 9 отраслей и 44 профессии

Несмотря на прогнозы о скором замещении человеческих профессий искусственным интеллектом, OpenAI признает, что GDPval охватывает лишь ограниченный набор задач. Бенчмарк основан на девяти отраслях, вносящих наибольший вклад в ВВП США:

  • Здравоохранение
  • Финансы
  • Производство
  • Государственный сектор
  • И другие ключевые индустрии

Тестирование проводится по 44 профессиям — от разработчиков до хирургов и инженеров.

Результаты: ИИ обходит людей в генерации отчетов

В первой версии теста GDPval-v0 опытные профессионалы сравнивали ИИ-сгенерированные отчеты с человеческими и выбирали лучший. Модели оценивались по «процент побед» против человеческих отчетов.

GPT-5-high превзошел или сравнялся с отраслевыми экспертами в 40.6% случаев, в то время как Claude Opus 4.1 от Anthropic показал еще более впечатляющий результат — 49%.

Цифры выглядят солидно, но важно понимать: тестировали только генерацию отчетов — самую механическую часть работы. Настоящая экспертиза включает критическое мышление, креативность и ответственность за решения, чего у ИИ пока нет. Это как сравнивать скорость печати с умением писать романы.

Ограничения и планы по развитию

OpenAI честно признает, что большинство профессионалов делают гораздо больше, чем просто отправляют reports начальству. Компания планирует развивать бенчмарк в сторону более комплексных тестов:

  • Расширение охвата отраслей
  • Добавление интерактивных workflow
  • Тестирование более сложных задач

Динамика прогресса впечатляет

Руководитель оценок OpenAI Теджал Патвардхан отмечает значительный прогресс: если GPT-4o, выпущенный 15 месяцев назад, показывал всего 13.7%, то GPT-5 демонстрирует почти трехкратный рост. Это свидетельствует об ускоряющемся развитии языковых моделей.

Несмотря на ограниченность методологии, прогресс на GDPval действительно значим. Он показывает, что люди в этих профессиях уже сегодня могут использовать ИИ-модели для задач более высокого уровня — но до полного замещения экспертов еще далеко.