Оглавление

Компания Google анонсировала специализированную модель Gemini 2.5 Computer Use, которая позволяет ИИ-агентам напрямую взаимодействовать с пользовательскими интерфейсами — кликать, вводить текст, заполнять формы и управлять веб-приложениями так, как это делает человек. Модель доступна в превью через API и построена на базе возможностей Gemini 2.5 Pro.

Диаграмма цикла ИИ-агента: задача - скриншот - модель - выполнение действия
Источник: deepmind.google

Как работает компьютерное зрение ИИ

Новая модель использует инструмент computer_use в Gemini API, работающий в циклическом режиме. На вход система получает:

  • Пользовательский запрос
  • Скриншот интерфейса
  • Историю последних действий

Модель анализирует эти данные и генерирует ответ в виде вызова функции — например, клик или ввод текста. После выполнения действия система получает новый скриншот и URL, продолжая цикл до завершения задачи.

Практические примеры применения

В демонстрациях модель успешно справляется со сложными многошаговыми задачами:

Пример 1: «Найти всех питомцев из Калифорнии на сайте pet-care-signup, добавить их в CRM-систему спа и записать на прием к специалисту»

Пример 2: «Организовать хаотичные заметки на виртуальной доске в соответствующие категории»

Производительность и безопасность

Согласно тестам, Gemini 2.5 Computer Use превосходит аналогичные решения в веб- и мобильных бенчмарках при минимальной задержке. Модель оптимизирована в первую очередь для браузеров, но показывает перспективные результаты и в управлении мобильными интерфейсами.

В вопросах безопасности Google реализовал многоуровневую систему защиты:

  • Встроенные механизмы безопасности в самой модели
  • Сервис проверки каждого действия перед выполнением
  • Возможность настройки обязательного подтверждения пользователя для рискованных операций

ИИ-агенты, способные управлять интерфейсами — это естественный следующий шаг после чат-ботов. Интересно, что Google делает ставку на безопасность с самого начала, понимая риски автоматизации действий в веб-среде. Вопрос в том, насколько надежно это работает в реальных условиях, где каждый сайт — это отдельная вселенная с уникальной структурой и поведением. Пока что это выглядит как технология для разработчиков, а не для массового пользователя.

По материалам DeepMind.