Оглавление
Несмотря на прогнозы о том, что 2025 год станет годом AI-агентов, основная проблема остается нерешенной: модели плохо справляются с задачами, требующими последовательных действий. Тесты показывают, что даже самые мощные AI-системы допускают больше ошибок по мере увеличения количества шагов и времени выполнения задачи.
Новый подход к планированию длинных задач
Исследователи из университетов Цинхуа и Пекина, DeepLang AI и Университета Иллинойса представили фреймворк EAGLET, который предлагает практичный метод улучшения производительности AI-агентов на длинных задачах без необходимости ручной разметки данных или переобучения моделей.
EAGLET представляет собой «глобальный планировщик», который можно интегрировать в существующие рабочие процессы агентов для снижения галлюцинаций и повышения эффективности выполнения задач.
Идея разделения планирования и исполнения выглядит элегантно простой, но именно такие решения часто оказываются прорывными. Вместо того чтобы заставлять одну модель одновременно думать и действовать, EAGLET дает ей возможность сначала составить стратегический план — как опытный шахматист, продумывающий несколько ходов вперед.
Как работает EAGLET
EAGLET — это дообученная языковая модель, которая интерпретирует инструкции задачи и генерирует высокоуровневый план для агента. Она не вмешивается в процесс выполнения, но ее предварительное руководство помогает снизить ошибки планирования.
Ключевые особенности подхода:
- Двухэтапный процесс обучения без человеческих аннотаций
- Генерация синтетических планов с помощью мощных LLM
- Фильтрация планов через стратегию гомологичного консенсуса
- Доработка через обучение с подкреплением на основе правил
Инновационная система вознаграждения ECGR
Одной из ключевых инноваций EAGLET является Executor Capability Gain Reward (ECGR) — система вознаграждения, которая оценивает ценность сгенерированного плана по тому, насколько он помогает как высокопроизводительным, так и менее способным агентам успешно выполнять задачи с меньшим количеством шагов.
Этот подход включает фактор затухания, чтобы поощрять более короткие и эффективные траектории задач. Он избегает чрезмерного вознаграждения планов, которые полезны только уже компетентным агентам, и способствует созданию более обобщаемых рекомендаций по планированию.
Совместимость и производительность
Планировщик EAGLET разработан как модульный и «подключаемый» компонент, что означает возможность его интеграции в существующие пайплайны агентов без необходимости переобучения исполнителей.
В тестах планировщик повысил производительность различных базовых моделей:
- GPT-4.1: улучшение с 75.5 до 82.2 баллов
- GPT-5: рост с 84.5 до 88.1 баллов
- Llama-3.1-8B-Instruct: скачок с 39.5 до 59.4 баллов
Наиболее впечатляющие результаты были достигнуты в ALFWorld — производительность увеличилась более чем в 2.3 раза с 22.9 до 54.3 баллов.
Эффективность обучения и выполнения
По сравнению с методами на основе обучения с подкреплением, такими как GiGPO, которые могут требовать сотен итераций обучения, EAGLET достиг лучших или сопоставимых результатов примерно с одной восьмой тренировочных усилий.
Эта эффективность также проявляется при выполнении: агенты с EAGLET обычно требуют меньше шагов для завершения задач. С GPT-4.1 среднее количество шагов сократилось с 13.0 до 11.1, а с GPT-5 — с 11.4 до 9.4.
Вопросы для практического применения
Несмотря на впечатляющие результаты, остается неясным, можно ли легко интегрировать EAGLET в популярные корпоративные фреймворки агентов, такие как LangChain или AutoGen, или потребуется кастомная инфраструктура для поддержки разделения планирования и исполнения.
Кроме того, на момент публикации статьи авторы не выпустили открытую реализацию EAGLET. Неясно, когда код будет выпущен, под какой лицензией и как будет поддерживаться, что может ограничить практическую полезность фреймворка для корпоративного развертывания в ближайшей перспективе.
По материалам VentureBeat.
Оставить комментарий