Оглавление
Компания DeepMind анонсировала вторую версию своего агента искусственного интеллекта SIMA, который теперь может не просто выполнять команды в виртуальных мирах, но и рассуждать о целях, общаться с пользователями и обучаться со временем, сообщает DeepMind.

От исполнителя команд к мыслящему компаньону
Первая версия SIMA, представленная в прошлом году, могла выполнять более 600 различных команд вроде «поверни налево», «поднимись по лестнице» или «открой карту» в разнообразных коммерческих играх. Агент работал как человек — смотрел на экран и использовал виртуальную клавиатуру с мышью, не имея доступа к внутренней механике игр.
SIMA 2 представляет собой качественный скачок благодаря интеграции моделей Gemini в качестве ядра агента. Теперь система может не просто реагировать на инструкции, но и рассуждать о них, понимать высокоуровневые цели пользователя и детально планировать шаги для их достижения.
Архитектура с мышлением
Ключевое улучшение — способность к сложным рассуждениям. SIMA 2 может описывать пользователю свои намерения и подробно рассказывать о шагах, которые предпринимает для достижения целей. В тестировании взаимодействие с агентом стало напоминать скорее сотрудничество с компаньоном, чем отдавание команд.
Обучение проводилось на смеси демонстрационных видео с человеческими разметками и сгенерированными Gemini метками. Благодаря сотрудничеству с игровыми студиями, включая разработчиков новой survival-игры ASKA и исследовательской реализации Minecraft под названием MineDojo, агент прошел обучение на более широком наборе игр.
Улучшенная генерализация
Интеграция Gemini привела к значительному улучшению способности к обобщению и надежности. SIMA 2 теперь понимает более сложные и нюансированные инструкции и успешнее их выполняет, даже в играх, на которых не обучался.
- Способность выполнять длинные и сложные задачи
- Понимание мультимодальных промптов
- Работа с разными языками и даже эмодзи
Особенно впечатляет способность переносить изученные концепции — например, понимание «добычи ресурсов» в одной игре и применение его к «сбору урожая» в другой. Это фундаментально для достижения широкой генерализации, характерной для человеческого познания.

Производительность SIMA 2 значительно приблизилась к человеческой по широкому спектру задач. На графике видно, как вторая версия закрыла существенную часть разрыва между SIMA 1 и человеческими игроками в наборе оценочных задач.
Попытка создать ИИ, который не просто имитирует действия, но действительно понимает контекст виртуального мира — это серьезный шаг к воплощенному искусственному интеллекту. Хотя до настоящего AGI еще далеко, способность SIMA 2 рассуждать о целях и переносить знания между разными игровыми средами выглядит многообещающе для будущего робототехники и интерактивных систем.
Разработчики подчеркивают, что это важный шаг в направлении искусственного общего интеллекта с серьезными импликациями для будущего робототехники и воплощенного ИИ в целом. Мощный движок рассуждений Gemini теперь может воспринимать, понимать и действовать в сложных интерактивных 3D-средах.
Оставить комментарий