Оглавление

Гонка за созданием полноценных ИИ-агентов вышла на новый уровень — теперь Google присоединился к битве с собственной разработкой, способной автономно взаимодействовать с веб-сайтами. Лаборатория DeepMind представила специальную версию модели Gemini 2.5 Pro Computer Use, которая может просматривать страницы, заполнять формы, нажимать кнопки и даже проходить капчи.

Что умеет новый агент

В отличие от стандартных чат-ботов, Gemini 2.5 Computer Use работает через виртуальный браузер и способна выполнять последовательные действия на сайтах по единственной текстовой команде пользователя. Модель специально дообучали для взаимодействия с пользовательскими интерфейсами, включая:

  • Прокрутку страниц и навигацию по выпадающим меню
  • Заполнение форм и ввод данных
  • Нажатие кнопок и переход по ссылкам
  • Работу с сайтами, защищенными авторизацией

Как отметил генеральный директор Google Сундар Пичаи в своем заявлении: «Это ранние дни, но способность модели взаимодействовать с вебом — важный следующий шаг в создании универсальных агентов».

Партнерство с Browserbase и доступность

Пока модель не доступна напрямую для обычных пользователей. Google заключил партнерство со стартапом Browserbase, который предоставляет «безголовые» браузеры специально для ИИ-агентов. Пользователи могут протестировать Gemini 2.5 Computer Use на специальном демо-сайте и даже сравнить ее с конкурентами от OpenAI и Anthropic в новой Browser Arena.

Для разработчиков модель доступна через Gemini API в Google AI Studio и платформу Vertex AI, что позволяет создавать прототипы приложений с автономными агентами.

ИИ теперь учится делать то, что люди ненавидят — заполнять бесконечные формы и проходить капчи. Технически впечатляет, но возникает вопрос: не станет ли это очередным инструментом для автоматизации спама и мошенничества? Пока ограничения разумны — только веб-браузинг без доступа к локальным файлам, но вектор развития очевиден.

Тестирование в действии

В ходе кратких тестов модель успешно справилась с несколькими задачами:

  • Перешла на официальный сайт Тейлор Свифт и предоставила сводку о продажах специального издания альбома
  • Прошла Google Search Captcha с выбором изображений мотоциклов за считанные секунды
  • Выполнила поиск солнечных светильников на Amazon

Однако при выполнении более сложных задач модель иногда «зависала» и выдавала сообщение о завершении, не доводя дело до конца.

Ограничения и конкуренция

В отличие от агентов конкурентов, Gemini 2.5 Computer Use пока ограничена веб-браузингом и не умеет создавать или редактировать локальные файлы — презентации, таблицы или документы. Агент ChatGPT от OpenAI и Claude от Anthropic предлагают более широкий функционал для работы с файловой системой.

Тем не менее, появление такого агента от Google знаменует важный этап в развитии автономных ИИ-систем, способных заменять человека в рутинных веб-операциях.

По материалам VentureBeat.