M-GRPO: метод обучения ИИ-агентов для сложных задач

Новый метод M-GRPO позволяет обучать команды ИИ-агентов с четким разделением ролей, улучшая координацию в сложных многоэтапных задачах на 10%.

Оглавление

Проблемы одиночных агентов и преимущества командного подхода
Как M-GRPO обеспечивает скоординированное обучение
Результаты тестирования и практические примеры

Исследователи из Imperial College London и Ant Group представили фреймворк для одновременного обучения нескольких ИИ-агентов со специализированными ролями. Эта методика позволяет более надежно выполнять сложные многоэтапные задачи за счет четкого разделения обязанностей и лучшей координации.

Проблемы одиночных агентов и преимущества командного подхода

Большинство современных систем ИИ полагаются на одного агента, который должен одновременно планировать и действовать. Такой подход работает для простых задач, но терпит неудачу при длинных цепочках решений. Ошибки накапливаются, и один агент обычно не может одинаково хорошо справляться как с высокоуровневым планированием, так и с практическим использованием инструментов.

Предложенное решение — структурированная иерархия. Один агент выступает в роли проектного менеджера, который контролирует рабочий процесс, а специализированные суб-агенты обрабатывают конкретные инструменты, такие как веб-поиск или анализ данных. Исследовательская команда обнаружила, что мульти-агентные системы с четким лидером могут решать задачи почти на десять процентов быстрее, чем системы без определенных ролей.

Вертикальные иерархии работают особенно хорошо, когда главный агент делегирует задачи, а суб-агенты отчитываются о результатах. Anthropic тестирует аналогичную структуру в своем недавно представленном исследовательском агенте.

Диаграмма главного агента, делегирующего задачи подчиненным агентам с циклами проверки

На основе пользовательского запроса главный агент разбивает работу на подзадачи, назначает их специализированным суб-агентам и интегрирует несколько раундов проверенных отзывов в окончательный ответ.

Как M-GRPO обеспечивает скоординированное обучение

Большинство систем с одним агентом сегодня используют Group Relative Policy Optimization (GRPO). Агент генерирует несколько ответов на запрос, сравнивает их и усиливает более сильные паттерны.

Мульти-агентные системы усложняют этот процесс. Агенты работают на разных частотах, обрабатывают различные задачи и могут работать на отдельных серверах. Стандартные подходы к обучению в таких условиях сталкиваются с трудностями. Многие системы заставляют всех агентов использовать одну и ту же большую языковую модель, ограничивая специализацию, хотя каждый агент работает с разными данными и обязанностями.

Исследователи выделяют три основные проблемы:

Неравномерная рабочая нагрузка: главный агент работает непрерывно, а суб-агенты запускаются только при необходимости
Изменчивый размер команды: в зависимости от задачи главный агент может вызвать одного или нескольких суб-агентов
Распределенная архитектура: агенты часто работают на отдельных серверах

Новая Multi-Agent Group Relative Policy Optimization (M-GRPO) расширяет GRPO, позволяя главным и суб-агентам обучаться вместе, сохраняя при этом свои роли различными.

Раздельная архитектура двух агентов с отдельными генераторами и общей базой данных

Фреймворк позволяет главным и суб-агентам обучаться независимо, синхронизируя свои результаты через общую базу данных. Центральный контроллер распределяет задачи и вызывает нужные инструменты, обеспечивая скоординированное обучение на нескольких серверах.

Каждый агент оценивается на основе своей конкретной роли. Главный агент оценивается по качеству окончательного ответа, а суб-агенты — с использованием смеси их локальной производительности и вклада в общий результат. M-GRPO вычисляет групповые относительные преимущества, сравнивая вывод каждого агента со средним значением в его группе и корректируя обучение на основе разницы.

Мы пытаемся создать сложные иерархические системы ИИ, которые имитируют человеческие команды, но при этом сталкиваемся с теми же проблемами координации, что и в реальных организациях. Главный агент становится тем самым «менеджером среднего звена», который должен одновременно планировать, делегировать и интегрировать результаты — классическая проблема управления проектами, только на скорости ИИ.

Результаты тестирования и практические примеры

Исследователи обучили свою систему M-GRPO с использованием модели Qwen3-30B на 64 GPU H800 и протестировали ее на трех бенчмарках: GAIA для задач общего ассистента, XBench-DeepSearch для использования инструментов в различных областях и WebWalkerQA для веб-навигации.

На всех бенчмарках M-GRPO превзошел как одиночных агентов GRPO, так и мульти-агентные системы с необученными суб-агентами. Он демонстрировал более стабильное поведение и требовал меньше данных для обучения для достижения высокой производительности.

Графики сравнения эффективности M-GRPO и одиночного агента по бенчмаркам

Совместное обучение главных и суб-агентов с M-GRPO последовательно превосходит обучение только главного агента на XBench, GAIA и WebWalkerQA.

Реальные примеры показывают, как это помогает. В логической задаче с кубиком Рубика обученная система выбрала правильный инструмент рассуждения для математических шагов, в то время как необученная система пыталась использовать браузер. В исследовательской задаче о инвазивных видах рыб обученный главный агент выдавал гораздо более точные инструкции. Вместо общего поиска «инвазивные виды рыбы-клоуна Ocellaris» он указал «виды, которые стали инвазивными после выпуска владельцами домашних животных».

Код и наборы данных доступны на GitHub.

По материалам The Decoder.

Новости

Новый фреймворк для обучения ИИ-агентов улучшает координацию в сложных задачах

Проблемы одиночных агентов и преимущества командного подхода

Как M-GRPO обеспечивает скоординированное обучение

Результаты тестирования и практические примеры

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий