Оглавление
Сообщает Ars Technica, что Google DeepMind анонсировала два новых модельных подхода в рамках проекта Gemini Robotics, которые впервые позволяют роботам «думать» перед выполнением действий. Это знаковый шаг от узкоспециализированных систем к универсальным роботизированным агентам.
Архитектура двух моделей
Система состоит из двух взаимодополняющих моделей: Gemini Robotics 1.5 и Gemini Robotics-ER 1.5. Первая представляет собой vision-language-action (VLA) модель, которая генерирует действия робота на основе визуальных и текстовых данных. Вторая, с приставкой ER (embodied reasoning), является vision-language моделью, которая анализирует сложные задачи и генерирует пошаговые инструкции для их выполнения.
Как работает «мыслящий» робот
Модель ER обрабатывает запросы вместе с изображениями физического окружения и может использовать дополнительные инструменты, такие как Google Search, для сбора информации. Она генерирует инструкции на естественном языке, которые затем передаются action-модели для непосредственного выполнения.
Две новые модели работают вместе, чтобы «думать» о том, как выполнить задачу.

Разделение на «мыслителя» и «исполнителя» — это элегантное архитектурное решение, которое напоминает человеческий подход к сложным задачам. Правда, называть это «мышлением» пока преждевременно — скорее, это продвинутое планирование на основе паттернов. Но сам факт, что роботы теперь могут анализировать незнакомые ситуации без перепрограммирования, уже меняет правила игры.
Кросс-платформенное обучение
Одним из ключевых достижений стало преодоление необходимости создания кастомных моделей для каждого типа роботов. Gemini Robotics 1.5 демонстрирует способность к передаче знаний между разными «воплощениями» — навыки, полученные на двуруком манипуляторе Aloha 2, успешно переносятся на гуманоидного робота Apollo без дополнительной настройки.
Доступность и перспективы
Пока модель, непосредственно управляющая роботами, доступна только доверенным тестерам. Однако мыслящий компонент уже выходит в Google AI Studio, позволяя разработчикам генерировать инструкции для собственных роботизированных экспериментов.
Несмотря на прогресс, до робота, который сможет автономно постирать ваше белье, еще далеко. Текущая система требует тщательного контроля и тестирования, но сам подход открывает путь к созданию действительно универсальных роботизированных помощников.
Оставить комментарий