Оглавление
Искусственный интеллект на основе самых продвинутых языковых моделей регулярно проваливает даже простые профессиональные задачи при самостоятельной работе, согласно исследованию, опубликованному в четверг компанией Upwork, крупнейшей платформой для фрилансеров.
Но то же исследование показывает более перспективный путь развития: когда AI-агенты сотрудничают с человеческими экспертами, показатели завершения проектов возрастают до 70%, что предполагает, что будущее работы может заключаться не в противостоянии людей и машин, а в их совместной работе.
Реальные результаты AI-агентов на 300+ фриланс-заданиях
Результаты основаны на анализе более 300 реальных клиентских проектов с платформы Upwork, что представляет собой первую систематическую оценку того, как человеческая экспертиза усиливает производительность AI-агентов в реальной профессиональной работе — а не синтетических тестах или академических симуляциях.
Индекс продуктивности человека и агента (HAPI) от Upwork оценил, как три ведущие AI-системы — Gemini 2.5 Pro, GPT-5 от OpenAI и Claude Sonnet 4 — справлялись с реальными заданиями от платящих клиентов в различных категориях, включая написание текстов, анализ данных, веб-разработку, инжиниринг, продажи и перевод.
Критически важно, что Upwork намеренно выбирала простые, четко определенные проекты, где AI-агенты имели разумные шансы на успех. Эти задания стоимостью менее $500 представляют менее 6% общего объема услуг платформы — крошечную долю общего бизнеса и признание текущих ограничений ИИ.
Модели, способные сдать SAT на отлично, не могут подсчитать буквы в слове «strawberry». Это прекрасная иллюстрация разрыва между академическими тестами и реальными задачами — классическая проблема переобучения на бенчмарках.
20 минут человеческой помощи повышают эффективность ИИ на 70%
Исследование показывает разительные отличия в том, как AI-агенты работают с человеческим руководством и без него в разных типах задач. Для проектов по анализу данных Claude Sonnet 4 достиг 64% завершения при самостоятельной работе, но поднялся до 93% после получения обратной связи от эксперта. В продажах и маркетинге Gemini 2.5 Pro улучшил результат с 17% до 31% с человеческой помощью. GPT-5 показал аналогичные улучшения в инжиниринге — с 30% до 50% завершения.
Эта тенденция сохранилась практически во всех категориях, причем агенты особенно хорошо реагировали на человеческую обратную связь в качественной, творческой работе, требующей редакторского суждения — таких областях, как написание текстов, перевод и маркетинг, где показатели завершения увеличивались до 17 процентных пунктов за цикл обратной связи.
Ключевые результаты по моделям:
- Claude Sonnet 4: от 64% до 93% в аналитике данных
- Gemini 2.5 Pro: от 17% до 31% в маркетинге
- GPT-5: от 30% до 50% в инжиниринге
Экономика человеко-машинного сотрудничества
Несмотря на необходимость нескольких раундов человеческой обратной связи — каждый продолжительностью около 20 минут — временные затраты остаются «на порядки отличающимися между человеком, выполняющим работу в одиночку, и человеком, работающим с AI-агентом», отметили исследователи. Если проект может занять у фрилансера дни для самостоятельного завершения, подход «агент плюс человек» может дать результаты за часы через итеративные циклы автоматизированной работы и экспертного уточнения.
Экономические последствия выходят за рамки простой экономии времени. Upwork недавно сообщила, что объем услуг, связанных с ИИ, вырос на 53% в годовом исчислении в третьем квартале 2025 года, что стало одним из самых сильных драйверов роста для компании.
Исследование Upwork — трезвый душ для индустрии, помешанной на автономности. Оказывается, будущее не за заменой людей, а за их симбиозом с машинами. Особенно забавно, что самые простые задачи оказались самыми сложными для ИИ — возможно, именно потому, что они требуют того самого здравого смысла, которого так не хватает современным моделям.
По сообщению VentureBeat, для Upwork, которая соединяет примерно 800 000 активных клиентов, публикующих более 3 миллионов заданий ежегодно, с глобальной базой фрилансеров, это исследование служит стратегической бизнес-цели: установлению стандартов качества для AI-агентов перед тем, как позволить им конкурировать или сотрудничать с человеческими работниками на своей платформе.
Оставить комментарий