Оглавление

Искусственный интеллект на основе самых продвинутых языковых моделей регулярно проваливает даже простые профессиональные задачи при самостоятельной работе, согласно исследованию, опубликованному в четверг компанией Upwork, крупнейшей платформой для фрилансеров.

Но то же исследование показывает более перспективный путь развития: когда AI-агенты сотрудничают с человеческими экспертами, показатели завершения проектов возрастают до 70%, что предполагает, что будущее работы может заключаться не в противостоянии людей и машин, а в их совместной работе.

Реальные результаты AI-агентов на 300+ фриланс-заданиях

Результаты основаны на анализе более 300 реальных клиентских проектов с платформы Upwork, что представляет собой первую систематическую оценку того, как человеческая экспертиза усиливает производительность AI-агентов в реальной профессиональной работе — а не синтетических тестах или академических симуляциях.

Индекс продуктивности человека и агента (HAPI) от Upwork оценил, как три ведущие AI-системы — Gemini 2.5 Pro, GPT-5 от OpenAI и Claude Sonnet 4 — справлялись с реальными заданиями от платящих клиентов в различных категориях, включая написание текстов, анализ данных, веб-разработку, инжиниринг, продажи и перевод.

Критически важно, что Upwork намеренно выбирала простые, четко определенные проекты, где AI-агенты имели разумные шансы на успех. Эти задания стоимостью менее $500 представляют менее 6% общего объема услуг платформы — крошечную долю общего бизнеса и признание текущих ограничений ИИ.

Модели, способные сдать SAT на отлично, не могут подсчитать буквы в слове «strawberry». Это прекрасная иллюстрация разрыва между академическими тестами и реальными задачами — классическая проблема переобучения на бенчмарках.

20 минут человеческой помощи повышают эффективность ИИ на 70%

Исследование показывает разительные отличия в том, как AI-агенты работают с человеческим руководством и без него в разных типах задач. Для проектов по анализу данных Claude Sonnet 4 достиг 64% завершения при самостоятельной работе, но поднялся до 93% после получения обратной связи от эксперта. В продажах и маркетинге Gemini 2.5 Pro улучшил результат с 17% до 31% с человеческой помощью. GPT-5 показал аналогичные улучшения в инжиниринге — с 30% до 50% завершения.

Эта тенденция сохранилась практически во всех категориях, причем агенты особенно хорошо реагировали на человеческую обратную связь в качественной, творческой работе, требующей редакторского суждения — таких областях, как написание текстов, перевод и маркетинг, где показатели завершения увеличивались до 17 процентных пунктов за цикл обратной связи.

Ключевые результаты по моделям:

  • Claude Sonnet 4: от 64% до 93% в аналитике данных
  • Gemini 2.5 Pro: от 17% до 31% в маркетинге
  • GPT-5: от 30% до 50% в инжиниринге

Экономика человеко-машинного сотрудничества

Несмотря на необходимость нескольких раундов человеческой обратной связи — каждый продолжительностью около 20 минут — временные затраты остаются «на порядки отличающимися между человеком, выполняющим работу в одиночку, и человеком, работающим с AI-агентом», отметили исследователи. Если проект может занять у фрилансера дни для самостоятельного завершения, подход «агент плюс человек» может дать результаты за часы через итеративные циклы автоматизированной работы и экспертного уточнения.

Экономические последствия выходят за рамки простой экономии времени. Upwork недавно сообщила, что объем услуг, связанных с ИИ, вырос на 53% в годовом исчислении в третьем квартале 2025 года, что стало одним из самых сильных драйверов роста для компании.

Исследование Upwork — трезвый душ для индустрии, помешанной на автономности. Оказывается, будущее не за заменой людей, а за их симбиозом с машинами. Особенно забавно, что самые простые задачи оказались самыми сложными для ИИ — возможно, именно потому, что они требуют того самого здравого смысла, которого так не хватает современным моделям.

По сообщению VentureBeat, для Upwork, которая соединяет примерно 800 000 активных клиентов, публикующих более 3 миллионов заданий ежегодно, с глобальной базой фрилансеров, это исследование служит стратегической бизнес-цели: установлению стандартов качества для AI-агентов перед тем, как позволить им конкурировать или сотрудничать с человеческими работниками на своей платформе.