Оглавление
Исследователи из Университета Иллинойса в Урбане-Шампейне и Google Cloud AI Research разработали революционный подход к созданию ИИ-агентов, способных накапливать и использовать опыт для решения сложных задач. Фреймворк ReasoningBank превращает каждое взаимодействие — успешное или провальное — в структурированную память, которую агенты могут применять в новых ситуациях.
Проблема забывчивости ИИ-агентов
Современные агенты на основе больших языковых моделей сталкиваются с фундаментальным ограничением: они не умеют учиться на собственном опыте. Каждая задача решается с чистого листа, что приводит к постоянному повторению одних и тех же ошибок и неэффективному использованию вычислительных ресурсов.
Предыдущие попытки добавить агентам память сводились к простому хранению журналов взаимодействий или только успешных примеров. Как отмечают исследователи в своей работе, «существующие подходы к памяти остаются ограниченными пассивным ведением записей, а не предоставлением действенных, обобщаемых рекомендаций для будущих решений».
Как ReasoningBank меняет правила игры
Фреймворк ReasoningBank кардинально меняет подход к работе агентов. Вместо статического выполнения задач изолированно, система извлекает полезные стратегии и уроки как из успехов, так и из неудач, превращая их в структурированные элементы памяти.
Цикл работы ReasoningBank включает три ключевых этапа:
- Извлечение стратегий: анализ успешных и неудачных попыток для выявления обобщаемых подходов
- Структурированное хранение: организация извлеченных знаний в поисковом банке памяти
- Активное применение: использование релевантных стратегий при решении новых задач
Джун Янь, научный сотрудник Google и соавтор исследования, приводит практический пример: «Агент, которому поручено найти наушники Sony, может потерпеть неудачу, потому что его широкий поисковый запрос возвращает более 4000 нерелевантных товаров. ReasoningBank сначала попытается выяснить, почему этот подход не сработал, а затем извлечет стратегии, такие как „оптимизация поискового запроса“ и „ограничение продуктов с помощью фильтрации по категориям“».
Идея учиться на ошибках — классика педагогики, но в мире ИИ это до сих пор было чем-то вроде священного Грааля. ReasoningBank наконец-то делает этот процесс систематическим, превращая каждую неудачу в ценный актив. Особенно впечатляет, что система не требует человеческого вмешательства для оценки успеха — она использует схемы LLM-as-a-judge. Правда, возникает вопрос: не научатся ли агенты слишком хорошо избегать рисков, теряя способность к нестандартным решениям?
Синергия памяти и масштабирования
Исследователи обнаружили мощный синергетический эффект при сочетании ReasoningBank с техниками масштабирования во время тестирования. Они разработали Memory-aware Test-Time Scaling (MaTTS), который бывает двух видов:
- Параллельное масштабирование: генерация нескольких траекторий для одного запроса с последующим сравнением и выявлением устойчивых паттернов рассуждения
- Последовательное масштабирование: итеративное уточнение рассуждений в рамках одной попытки
Это создает виртуальный цикл: существующая память направляет агента к более перспективным решениям, а разнообразный опыт, генерируемый через масштабирование, позволяет создавать более качественные воспоминания для хранения в ReasoningBank.
Результаты, которые говорят сами за себя
Тестирование на бенчмарках WebArena (веб-браузинг) и SWE-Bench-Verified (программная инженерия) с использованием моделей Google Gemini 2.5 Pro и Anthropic Claude 3.7 Sonnet показало впечатляющие результаты:
- Увеличение общего показателя успешности на 8.3 процентных пункта по сравнению с агентами без памяти
- Лучшее обобщение на сложных междоменных задачах
- Сокращение количества шагов взаимодействия для выполнения задач
- Экономия почти вдвое операционных затрат в некоторых сценариях
Для предприятий это означает возможность создания экономически эффективных агентов, способных обучаться на опыте и адаптироваться со временем в сложных рабочих процессах — от разработки программного обеспечения до анализа данных и поддержки клиентов.
Как заключают исследователи, их открытия указывают на практический путь к созданию адаптивных агентов с непрерывным обучением.
По материалам VentureBeat.
Оставить комментарий