Оглавление

Несмотря на прогнозы о том, что 2025 год станет годом AI-агентов, основная проблема остается нерешенной: модели плохо справляются с задачами, требующими последовательных действий. Тесты показывают, что даже самые мощные AI-системы допускают больше ошибок по мере увеличения количества шагов и времени выполнения задачи.

Новый подход к планированию длинных задач

Исследователи из университетов Цинхуа и Пекина, DeepLang AI и Университета Иллинойса представили фреймворк EAGLET, который предлагает практичный метод улучшения производительности AI-агентов на длинных задачах без необходимости ручной разметки данных или переобучения моделей.

EAGLET представляет собой «глобальный планировщик», который можно интегрировать в существующие рабочие процессы агентов для снижения галлюцинаций и повышения эффективности выполнения задач.

Идея разделения планирования и исполнения выглядит элегантно простой, но именно такие решения часто оказываются прорывными. Вместо того чтобы заставлять одну модель одновременно думать и действовать, EAGLET дает ей возможность сначала составить стратегический план — как опытный шахматист, продумывающий несколько ходов вперед.

Как работает EAGLET

EAGLET — это дообученная языковая модель, которая интерпретирует инструкции задачи и генерирует высокоуровневый план для агента. Она не вмешивается в процесс выполнения, но ее предварительное руководство помогает снизить ошибки планирования.

Ключевые особенности подхода:

  • Двухэтапный процесс обучения без человеческих аннотаций
  • Генерация синтетических планов с помощью мощных LLM
  • Фильтрация планов через стратегию гомологичного консенсуса
  • Доработка через обучение с подкреплением на основе правил

Инновационная система вознаграждения ECGR

Одной из ключевых инноваций EAGLET является Executor Capability Gain Reward (ECGR) — система вознаграждения, которая оценивает ценность сгенерированного плана по тому, насколько он помогает как высокопроизводительным, так и менее способным агентам успешно выполнять задачи с меньшим количеством шагов.

Этот подход включает фактор затухания, чтобы поощрять более короткие и эффективные траектории задач. Он избегает чрезмерного вознаграждения планов, которые полезны только уже компетентным агентам, и способствует созданию более обобщаемых рекомендаций по планированию.

Совместимость и производительность

Планировщик EAGLET разработан как модульный и «подключаемый» компонент, что означает возможность его интеграции в существующие пайплайны агентов без необходимости переобучения исполнителей.

В тестах планировщик повысил производительность различных базовых моделей:

  • GPT-4.1: улучшение с 75.5 до 82.2 баллов
  • GPT-5: рост с 84.5 до 88.1 баллов
  • Llama-3.1-8B-Instruct: скачок с 39.5 до 59.4 баллов

Наиболее впечатляющие результаты были достигнуты в ALFWorld — производительность увеличилась более чем в 2.3 раза с 22.9 до 54.3 баллов.

Эффективность обучения и выполнения

По сравнению с методами на основе обучения с подкреплением, такими как GiGPO, которые могут требовать сотен итераций обучения, EAGLET достиг лучших или сопоставимых результатов примерно с одной восьмой тренировочных усилий.

Эта эффективность также проявляется при выполнении: агенты с EAGLET обычно требуют меньше шагов для завершения задач. С GPT-4.1 среднее количество шагов сократилось с 13.0 до 11.1, а с GPT-5 — с 11.4 до 9.4.

Вопросы для практического применения

Несмотря на впечатляющие результаты, остается неясным, можно ли легко интегрировать EAGLET в популярные корпоративные фреймворки агентов, такие как LangChain или AutoGen, или потребуется кастомная инфраструктура для поддержки разделения планирования и исполнения.

Кроме того, на момент публикации статьи авторы не выпустили открытую реализацию EAGLET. Неясно, когда код будет выпущен, под какой лицензией и как будет поддерживаться, что может ограничить практическую полезность фреймворка для корпоративного развертывания в ближайшей перспективе.

По материалам VentureBeat.