Оглавление
Гонка за созданием полноценных ИИ-агентов вышла на новый уровень — теперь Google присоединился к битве с собственной разработкой, способной автономно взаимодействовать с веб-сайтами. Лаборатория DeepMind представила специальную версию модели Gemini 2.5 Pro Computer Use, которая может просматривать страницы, заполнять формы, нажимать кнопки и даже проходить капчи.
Что умеет новый агент
В отличие от стандартных чат-ботов, Gemini 2.5 Computer Use работает через виртуальный браузер и способна выполнять последовательные действия на сайтах по единственной текстовой команде пользователя. Модель специально дообучали для взаимодействия с пользовательскими интерфейсами, включая:
- Прокрутку страниц и навигацию по выпадающим меню
- Заполнение форм и ввод данных
- Нажатие кнопок и переход по ссылкам
- Работу с сайтами, защищенными авторизацией
Как отметил генеральный директор Google Сундар Пичаи в своем заявлении: «Это ранние дни, но способность модели взаимодействовать с вебом — важный следующий шаг в создании универсальных агентов».
Партнерство с Browserbase и доступность
Пока модель не доступна напрямую для обычных пользователей. Google заключил партнерство со стартапом Browserbase, который предоставляет «безголовые» браузеры специально для ИИ-агентов. Пользователи могут протестировать Gemini 2.5 Computer Use на специальном демо-сайте и даже сравнить ее с конкурентами от OpenAI и Anthropic в новой Browser Arena.
Для разработчиков модель доступна через Gemini API в Google AI Studio и платформу Vertex AI, что позволяет создавать прототипы приложений с автономными агентами.
ИИ теперь учится делать то, что люди ненавидят — заполнять бесконечные формы и проходить капчи. Технически впечатляет, но возникает вопрос: не станет ли это очередным инструментом для автоматизации спама и мошенничества? Пока ограничения разумны — только веб-браузинг без доступа к локальным файлам, но вектор развития очевиден.
Тестирование в действии
В ходе кратких тестов модель успешно справилась с несколькими задачами:
- Перешла на официальный сайт Тейлор Свифт и предоставила сводку о продажах специального издания альбома
- Прошла Google Search Captcha с выбором изображений мотоциклов за считанные секунды
- Выполнила поиск солнечных светильников на Amazon
Однако при выполнении более сложных задач модель иногда «зависала» и выдавала сообщение о завершении, не доводя дело до конца.
Ограничения и конкуренция
В отличие от агентов конкурентов, Gemini 2.5 Computer Use пока ограничена веб-браузингом и не умеет создавать или редактировать локальные файлы — презентации, таблицы или документы. Агент ChatGPT от OpenAI и Claude от Anthropic предлагают более широкий функционал для работы с файловой системой.
Тем не менее, появление такого агента от Google знаменует важный этап в развитии автономных ИИ-систем, способных заменять человека в рутинных веб-операциях.
По материалам VentureBeat.
Оставить комментарий