Оглавление

Автономные ИИ-агенты, которые должны были стать нашими цифровыми коллегами, на бумаге выглядят впечатляюще, но при столкновении с реальными задачами их эффективность стремительно падает. Исследование, проведенное учеными из UC Santa Barbara, MIT CSAIL и MIT-IBM Watson AI Lab, показало, что существующие бенчмарки создают иллюзию прогресса, которая разбивается о сложности живой эксплуатации. Как сообщает издание The Decoder, даже продвинутые модели с трудом находят и применяют нужные инструменты без посторонней помощи.

Концепция навыков или skills стала популярной после того, как Anthropic в октябре 2025 года внедрила их в систему Claude Code. Идея казалась изящной: вместо того чтобы раздувать контекстное окно модели, ей предоставляют модульные инструкции — текстовые файлы с описанием API, рабочих процессов и лучших практик. Агент должен сам решать, какой «навык» достать с полки в нужный момент. Однако на практике этот процесс выбора оказался ахиллесовой пятой современных систем.

Проблема «тепличных» условий в тестировании

Исследователи обнаружили, что популярный бенчмарк SKILLSBENCH дает агентам слишком много подсказок. В тестовых сценариях модели получают именно те навыки, которые необходимы для решения конкретной задачи. Это напоминает экзамен, где студенту вместе с вопросом выдают открытый учебник на нужной странице. Например, если задачей является расчет паводков, агенту сразу подсовывают спецификации конкретных гидрологических API, что превращает интеллектуальный поиск в простое копирование кода.

Чтобы проверить системы в условиях, приближенных к боевым, команда собрала базу из 34 198 реальных навыков из открытых репозиториев. Ученые протестировали шесть сценариев: от прямой передачи нужных файлов до полной автономности, когда агент должен самостоятельно искать инструменты в огромном массиве данных. В испытаниях участвовали топовые модели, включая Claude Opus 4.6, Kimi K2.5 и Qwen3.5-397B, каждая из которых показала заметную деградацию результатов при усложнении условий.

Статистика падения и неожиданные побочные эффекты

Показатели Claude Opus 4.6 наглядно иллюстрируют масштаб проблемы. Если при прямой подаче навыков точность выполнения задач составляла 55,4%, то в условиях самостоятельного поиска без подсказок она упала до 38,4%. Это лишь на несколько процентов выше базового уровня модели вообще без использования системы навыков. Для более слабых моделей ситуация оказалась еще печальнее: Kimi K2.5 и Qwen3.5 в реалистичных сценариях сработали даже хуже, чем без дополнительных инструментов.

  • Агенты игнорируют релевантные навыки: даже при наличии прямой подсказки Claude загружал нужные файлы лишь в 49% случаев.
  • Лишняя информация вредит: слабые модели «запутываются» в нерелевантных инструкциях, тратя ресурсы на бесполезные действия.
  • Трудности адаптации: системы не умеют подстраивать общие инструкции под специфические нюансы текущей задачи.

«Индустрия в очередной раз продает нам костыли под видом экзоскелета. Архитектура навыков выглядит как попытка обойти фундаментальную неспособность моделей к долгосрочному планированию и эффективной фильтрации шума. Пока разработчики гонятся за объемом библиотек, реальная ценность агентов в продакшене остается околонулевой из-за их фатальной невнимательности. Похоже, мы просто научили ИИ игнорировать документацию так же искусно, как это делают ленивые джуниоры».

Пути к исправлению: дообучение и уточнение

Единственным светлым пятном в исследовании стала методика «агентного гибридного поиска». Вместо простого семантического сопоставления агент итеративно пишет поисковые запросы, оценивает результаты и корректирует стратегию. Это позволило улучшить точность подбора инструментов на 18,7%. Также положительный эффект дало task-specific refinement — процесс, при котором модель сначала пробует решить задачу, понимает, чего ей не хватает, и на основе этого создает новые, специфические навыки.

Тем не менее, общие выводы ученых подтверждают скепсис многих практиков. Ранее аналогичные проблемы фиксировала компания Vercel, заметившая, что простой текстовый файл AGENTS.md, загруженный в контекст целиком, работает стабильнее, чем сложные системы динамического поиска навыков. Пока экосистемы ИИ-агентов не научатся адекватно оценивать релевантность инструментов, они останутся лишь впечатляющими лабораторными образцами, не готовыми к хаосу реальной разработки.