Оглавление

Компания Google интегрировала функцию Computer Use непосредственно в свою модель Gemini 3.5 Flash, наделив нейросеть способностью видеть экран и самостоятельно управлять интерфейсами. Как сообщает The Decoder, теперь модель может взаимодействовать с браузерами и мобильными устройствами без посредничества сторонних инструментов, что ранее требовало использования специализированной версии Gemini 2.5.

Это обновление превращает компактную модель в полноценного агента, способного оперировать в экосистеме рабочего стола. В сочетании с функциями вызова инструментов, поиском и картами, разработчики получают платформу для автоматизации офисных задач и тестирования программного обеспечения. Интересно наблюдать, как Google постепенно стирает грань между «чат-ботом» и операционной системой, превращая ИИ в активного пользователя.

Производительность и позиционирование на рынке

В бенчмарке OSWorld, который оценивает способность ИИ ориентироваться в интерфейсах, Gemini 3.5 Flash набрала 78.4 балла. Этот результат позволяет ей обойти Gemini 3 Flash (65.1) и даже GPT-5.4 mini от OpenAI, показавшую 72.1 балла. Впрочем, до лидерства пока далеко: Opus 4.8 от Anthropic удерживает первенство с результатом 83.4, а GPT-5.5 идет чуть впереди с 78.7 баллами.

Для индустрии это означает, что «легкие» модели становятся достаточно умными, чтобы справляться с задачами, которые раньше были под силу только тяжеловесным флагманам. Gemini 3.5 Flash фактически наступает на пятки более крупной Gemini 3.1 Pro, чей результат составил 76.2 балла. Подобная плотность результатов наводит на мысли о том, что оптимизация архитектуры сейчас важнее простого наращивания параметров.

Прямой доступ ИИ к управлению экраном — это не просто удобство, а перенос ответственности за безопасность на плечи разработчика. Несмотря на высокие баллы в тестах, реальная эксплуатация неизбежно столкнется с проблемой «галлюцинаций в интерфейсе», когда модель может нажать не ту кнопку в критически важной корпоративной системе. Google делает ставку на скорость Flash-версии, но игнорирует тот факт, что в автоматизации рабочих процессов надежность важнее миллисекунд задержки.

Безопасность и методы внедрения

Чтобы минимизировать риски prompt injection (атак через внедрение вредоносных инструкций), Google внедрила методы состязательного обучения и специфические защитные механизмы для корпоративного сектора. Один из них требует обязательного подтверждения пользователем любых необратимых действий, а второй автоматически блокирует выполнение задачи при обнаружении подозрительных косвенных команд в контексте.

Разработчикам, планирующим использовать новые возможности, Google рекомендует придерживаться строгого протокола безопасности:

  • Использование изолированных сред (песочниц) для выполнения действий модели.
  • Обеспечение постоянного человеческого контроля над критическими процессами.
  • Настройка жестких ограничений доступа к системным ресурсам.

Функционал уже доступен через Gemini API и платформу Gemini Enterprise Agent Platform. Для тех, кто хочет опробовать технологию на практике, подготовлена демонстрационная версия Browserbase и референсная реализация на GitHub, позволяющая оценить, насколько уверенно нейросеть чувствует себя в кресле оператора вашего компьютера.