Оглавление

Компания DeepMind анонсировала вторую версию своего агента искусственного интеллекта SIMA, который теперь может не просто выполнять команды в виртуальных мирах, но и рассуждать о целях, общаться с пользователями и обучаться со временем, сообщает DeepMind.

Сравнение успешности выполнения задач SIMA 1, SIMA 2 и человека
Источник: www.deepmind.google

От исполнителя команд к мыслящему компаньону

Первая версия SIMA, представленная в прошлом году, могла выполнять более 600 различных команд вроде «поверни налево», «поднимись по лестнице» или «открой карту» в разнообразных коммерческих играх. Агент работал как человек — смотрел на экран и использовал виртуальную клавиатуру с мышью, не имея доступа к внутренней механике игр.

SIMA 2 представляет собой качественный скачок благодаря интеграции моделей Gemini в качестве ядра агента. Теперь система может не просто реагировать на инструкции, но и рассуждать о них, понимать высокоуровневые цели пользователя и детально планировать шаги для их достижения.

Архитектура с мышлением

Ключевое улучшение — способность к сложным рассуждениям. SIMA 2 может описывать пользователю свои намерения и подробно рассказывать о шагах, которые предпринимает для достижения целей. В тестировании взаимодействие с агентом стало напоминать скорее сотрудничество с компаньоном, чем отдавание команд.

Обучение проводилось на смеси демонстрационных видео с человеческими разметками и сгенерированными Gemini метками. Благодаря сотрудничеству с игровыми студиями, включая разработчиков новой survival-игры ASKA и исследовательской реализации Minecraft под названием MineDojo, агент прошел обучение на более широком наборе игр.

Улучшенная генерализация

Интеграция Gemini привела к значительному улучшению способности к обобщению и надежности. SIMA 2 теперь понимает более сложные и нюансированные инструкции и успешнее их выполняет, даже в играх, на которых не обучался.

  • Способность выполнять длинные и сложные задачи
  • Понимание мультимодальных промптов
  • Работа с разными языками и даже эмодзи

Особенно впечатляет способность переносить изученные концепции — например, понимание «добычи ресурсов» в одной игре и применение его к «сбору урожая» в другой. Это фундаментально для достижения широкой генерализации, характерной для человеческого познания.

Четырехколоночное представление ИИ-агента SIMA 2 на базе Gemini в 3D-виртуальной среде
Источник: www.deepmind.google

Производительность SIMA 2 значительно приблизилась к человеческой по широкому спектру задач. На графике видно, как вторая версия закрыла существенную часть разрыва между SIMA 1 и человеческими игроками в наборе оценочных задач.

Попытка создать ИИ, который не просто имитирует действия, но действительно понимает контекст виртуального мира — это серьезный шаг к воплощенному искусственному интеллекту. Хотя до настоящего AGI еще далеко, способность SIMA 2 рассуждать о целях и переносить знания между разными игровыми средами выглядит многообещающе для будущего робототехники и интерактивных систем.

Разработчики подчеркивают, что это важный шаг в направлении искусственного общего интеллекта с серьезными импликациями для будущего робототехники и воплощенного ИИ в целом. Мощный движок рассуждений Gemini теперь может воспринимать, понимать и действовать в сложных интерактивных 3D-средах.