ReasoningBank: ИИ-агенты учатся на ошибках как люди

Фреймворк ReasoningBank позволяет ИИ-агентам учиться на успехах и ошибках, повышая эффективность решения задач на 8.3% и сокращая операционные затраты вдвое.

Оглавление

Проблема забывчивости ИИ-агентов
Как ReasoningBank меняет правила игры
Синергия памяти и масштабирования
Результаты, которые говорят сами за себя

Исследователи из Университета Иллинойса в Урбане-Шампейне и Google Cloud AI Research разработали революционный подход к созданию ИИ-агентов, способных накапливать и использовать опыт для решения сложных задач. Фреймворк ReasoningBank превращает каждое взаимодействие — успешное или провальное — в структурированную память, которую агенты могут применять в новых ситуациях.

Проблема забывчивости ИИ-агентов

Современные агенты на основе больших языковых моделей сталкиваются с фундаментальным ограничением: они не умеют учиться на собственном опыте. Каждая задача решается с чистого листа, что приводит к постоянному повторению одних и тех же ошибок и неэффективному использованию вычислительных ресурсов.

Предыдущие попытки добавить агентам память сводились к простому хранению журналов взаимодействий или только успешных примеров. Как отмечают исследователи в своей работе, «существующие подходы к памяти остаются ограниченными пассивным ведением записей, а не предоставлением действенных, обобщаемых рекомендаций для будущих решений».

Как ReasoningBank меняет правила игры

Фреймворк ReasoningBank кардинально меняет подход к работе агентов. Вместо статического выполнения задач изолированно, система извлекает полезные стратегии и уроки как из успехов, так и из неудач, превращая их в структурированные элементы памяти.

Цикл работы ReasoningBank включает три ключевых этапа:

Извлечение стратегий: анализ успешных и неудачных попыток для выявления обобщаемых подходов
Структурированное хранение: организация извлеченных знаний в поисковом банке памяти
Активное применение: использование релевантных стратегий при решении новых задач

Джун Янь, научный сотрудник Google и соавтор исследования, приводит практический пример: «Агент, которому поручено найти наушники Sony, может потерпеть неудачу, потому что его широкий поисковый запрос возвращает более 4000 нерелевантных товаров. ReasoningBank сначала попытается выяснить, почему этот подход не сработал, а затем извлечет стратегии, такие как „оптимизация поискового запроса“ и „ограничение продуктов с помощью фильтрации по категориям“».

Идея учиться на ошибках — классика педагогики, но в мире ИИ это до сих пор было чем-то вроде священного Грааля. ReasoningBank наконец-то делает этот процесс систематическим, превращая каждую неудачу в ценный актив. Особенно впечатляет, что система не требует человеческого вмешательства для оценки успеха — она использует схемы LLM-as-a-judge. Правда, возникает вопрос: не научатся ли агенты слишком хорошо избегать рисков, теряя способность к нестандартным решениям?

Синергия памяти и масштабирования

Исследователи обнаружили мощный синергетический эффект при сочетании ReasoningBank с техниками масштабирования во время тестирования. Они разработали Memory-aware Test-Time Scaling (MaTTS), который бывает двух видов:

Параллельное масштабирование: генерация нескольких траекторий для одного запроса с последующим сравнением и выявлением устойчивых паттернов рассуждения
Последовательное масштабирование: итеративное уточнение рассуждений в рамках одной попытки

Это создает виртуальный цикл: существующая память направляет агента к более перспективным решениям, а разнообразный опыт, генерируемый через масштабирование, позволяет создавать более качественные воспоминания для хранения в ReasoningBank.

Результаты, которые говорят сами за себя

Тестирование на бенчмарках WebArena (веб-браузинг) и SWE-Bench-Verified (программная инженерия) с использованием моделей Google Gemini 2.5 Pro и Anthropic Claude 3.7 Sonnet показало впечатляющие результаты:

Увеличение общего показателя успешности на 8.3 процентных пункта по сравнению с агентами без памяти
Лучшее обобщение на сложных междоменных задачах
Сокращение количества шагов взаимодействия для выполнения задач
Экономия почти вдвое операционных затрат в некоторых сценариях

Для предприятий это означает возможность создания экономически эффективных агентов, способных обучаться на опыте и адаптироваться со временем в сложных рабочих процессах — от разработки программного обеспечения до анализа данных и поддержки клиентов.

Как заключают исследователи, их открытия указывают на практический путь к созданию адаптивных агентов с непрерывным обучением.

По материалам VentureBeat.

Новости

Новый фреймворк памяти позволяет ИИ-агентам учиться на ошибках

Проблема забывчивости ИИ-агентов

Как ReasoningBank меняет правила игры

Синергия памяти и масштабирования

Результаты, которые говорят сами за себя

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий