Gaia2 и ARE: новый эталон для тестирования ИИ-агентов

Meta представляет Gaia2 — новый агентный бенчмарк с открытым фреймворком ARE для тестирования ИИ-агентов в условиях, максимально приближенных к реальному миру.

Оглавление

Эволюция тестирования ИИ-агентов
Ключевые особенности Gaia2
ARE: Фреймворк для реалистичного тестирования
Практическое применение

Сообщество разработчиков искусственного интеллекта получило мощный инструмент для тестирования агентных систем в условиях, максимально приближенных к реальности. Hugging Face анонсировал выпуск Gaia2 — преемника бенчмарка GAIA 2023 года, сопровождаемого открытой платформой Meta Agents Research Environments (ARE) для запуска, отладки и оценки агентов.

Эволюция тестирования ИИ-агентов

Идеальный ИИ-агент должен справляться с неоднозначностью инструкций, строить пошаговые планы, корректно идентифицировать ресурсы, выполнять действия без отклонений от цели и адаптироваться к непредвиденным событиям. Однако существующие среды тестирования страдают от искусственности: симулированные страницы всегда загружаются, события не возникают спонтанно, а асинхронный хаос отсутствует.

Gaia2 кардинально меняет подход к оценке агентов. В отличие от своего предшественника, который был только для чтения, новый бенчмарк поддерживает взаимодействие для чтения и записи, фокусируясь на интерактивном поведении и управлении сложностью.

График метрик производительности кривых масштабирования бюджета Gaia2 — Источник: huggingface.co

Ключевые особенности Gaia2

Новый бенчмарк включает 1000 человеко-созданных сценариев, организованных в семь групп задач:

Исполнение: Многошаговое выполнение инструкций и использование инструментов
Поиск: Сбор информации из множества источников
Обработка неоднозначности: Уточнение противоречивых запросов
Адаптивность: Реакция на изменения в симуляции
Временные рассуждения: Действия с временными ограничениями
Межагентное взаимодействие: Коммуникация между агентами без прямого доступа к API
Устойчивость к шуму: Работа при сбоях API и нестабильности среды

Наконец-то появился бенчмарк, который не стесняется добавлять в симуляцию здоровую долю хаоса. API, которые иногда не работают, временные ограничения и внезапные события — именно так выглядит реальный мир, а не стерильная лаборатория. Интересно посмотреть, как современные модели справятся с тем, что у них «заедает клавиатура» в цифровом пространстве.

ARE: Фреймворк для реалистичного тестирования

ARE (Meta Agents Research Environments) представляет собой исполняющую среду, где агенты получают доступ к комбинации приложений и предзаполненных данных. Фреймворк симулирует сложные условия, похожие на реальные, и может быть кастомизирован для дальнейшего изучения поведения агентов.

Gaia2 распространяется под лицензией CC by 4.0, а ARE — под MIT license, что делает их полностью доступными для исследовательского сообщества.

Практическое применение

Разработчики могут изучить бенчмарк через датасет или интерактивный демо-режим. Как и в случае с GAIA, сценарии не требуют специализированных знаний — человек в принципе должен достигать 100% результата, что упрощает отладку для разработчиков моделей.

Появление Gaia2 и ARE знаменует важный шаг в эволюции тестирования ИИ-агентов. Вместо идеализированных сред разработчики теперь получают инструменты, которые не боятся испачкать руки реальными проблемами — от сбоев API до временных ограничений и непредвиденных событий.

Новости

Meta* представляет Gaia2 и ARE — бенчмарк для тестирования ИИ-агентов в реальных условиях

Эволюция тестирования ИИ-агентов

Ключевые особенности Gaia2

ARE: Фреймворк для реалистичного тестирования

Практическое применение

Еще интереснее

Представлен SQaLe — крупнейший датасет для обучения моделей преобразования текста в SQL

Китайские исследователи сжали модель DeepSeek-R1 в 10 раз без потери качества

Google DeepMind представила AlphaProof 2 — ИИ для проверки математических доказательств

Инференс в промышленном масштабе становится ключевым источником доходов от ИИ

Оставить комментарий