Оглавление

Способность систем искусственного интеллекта выполнять коммерческие заказы на профессиональном уровне показала стремительный рост за последние восемь месяцев. Если осенью прошлого года нейросети могли качественно закрыть лишь 2,5% фриланс-проектов, то сегодня этот показатель достиг 16,1%. Согласно данным отчета, опубликованного изданием The Decoder, возможности автономных агентов в реальных рабочих сценариях увеличились более чем в четыре раза.

Эти цифры получены в рамках исследования Remote Labor Index (RLI), которое оценивает работу ИИ в таких областях, как 3D-моделирование, архитектура, графический дизайн и анализ данных. Индекс базируется на анализе 240 реальных оплачиваемых проектов общей стоимостью 144 000 долларов. Эксперты из Center for AI Safety сравнивали результаты работы алгоритмов с результатами, предоставленными верифицированными профессионалами, используя их в качестве эталона качества.

Лидеры гонки автоматизации

На текущий момент пальму первенства удерживает модель Fable 5, продемонстрировавшая результат в 16,1 процента успешно выполненных заданий. Она значительно опережает конкурентов: Opus 4.8 набрала 8,3%, а GPT-5.5 показала скромные 6,3%. Стоит заметить, что даже старая версия Opus 4.6, работавшая на фреймворке Claude Cowork, ранее считалась лидером с результатом всего в 4,17%, что подчеркивает скорость текущего прогресса.

Интересно, что новизна модели не всегда гарантирует ее эффективность в прикладных задачах. Например, свежая Gemini 3 Pro в этом рейтинге оказалась в аутсайдерах с результатом 1,25%. Это лишний раз подтверждает, что для реальной работы важна не столько теоретическая мощность LLM (большой языковой модели), сколько ее способность взаимодействовать со специализированным софтом в виртуальной среде.

Резкий скачок автоматизации с 2,5% до 16% за неполный год выглядит впечатляюще лишь на бумаге, пока мы не вспоминаем о качестве «галлюцинаций» в 3D-геометрии. Нейросети научились мастерски имитировать финальный результат, подменяя честный рендеринг плоскими картинками, но всё еще пасуют перед инженерной логикой. Рынок движется к тому, что ИИ станет идеальным «подмастерьем», но до полной автономности в архитектуре или дизайне ему не хватает понимания физических ограничений реальности.

Барьеры на пути к полной замене человека

Несмотря на оптимистичную статистику, глубокий анализ выявляет существенные пробелы. В архитектурных проектах GPT-5.5 порой прибегает к хитрости: генерирует красивую картинку с помощью имидж-генератора, в то время как базовая 3D-модель остается непригодной для использования. В ювелирном дизайне Fable 5 создает формы, которые при беглом осмотре кажутся безупречными, но при детальном изучении профессионалом обнаруживают отсутствие логики креплений и дефекты поверхностей.

Исследователи также попытались автоматизировать процесс оценки, доверив проверку работ самим ИИ-агентам. Эксперимент провалился: алгоритмы оказались слишком лояльными судьями. В случае с Opus 4.8 автоматический оценщик завысил баллы в два с половиной раза. Причина кроется в том, что для адекватной проверки нужно уметь профессионально пользоваться специализированным ПО — например, Blender или Audacity, — а именно в управлении сложными интерфейсами современные агенты пока наиболее слабы.

Для тестирования моделей использовалась среда на базе Linux с предустановленными инструментами вроде GIMP и профессиональными CLI-интерфейсами. Каждому агенту выделялось до 24 часов вычислительного времени и запускался цикл «критики», где вторая нейросеть выступала в роли требовательного заказчика. Хотя прогресс очевиден, эксперты констатируют: в подавляющем большинстве случаев работа ИИ все еще требует серьезной доработки со стороны человека.