Gemini 3.5 Flash получила функцию Computer Use для управления ПК

Google обновила Gemini 3.5 Flash, добавив возможность видеть экран и управлять компьютером. Модель показала высокие результаты в тестах OSWorld, обойдя конкурентов от OpenAI.

Оглавление

Производительность и позиционирование на рынке
Безопасность и методы внедрения

Компания Google интегрировала функцию Computer Use непосредственно в свою модель Gemini 3.5 Flash, наделив нейросеть способностью видеть экран и самостоятельно управлять интерфейсами. Как сообщает The Decoder, теперь модель может взаимодействовать с браузерами и мобильными устройствами без посредничества сторонних инструментов, что ранее требовало использования специализированной версии Gemini 2.5.

Это обновление превращает компактную модель в полноценного агента, способного оперировать в экосистеме рабочего стола. В сочетании с функциями вызова инструментов, поиском и картами, разработчики получают платформу для автоматизации офисных задач и тестирования программного обеспечения. Интересно наблюдать, как Google постепенно стирает грань между «чат-ботом» и операционной системой, превращая ИИ в активного пользователя.

Производительность и позиционирование на рынке

В бенчмарке OSWorld, который оценивает способность ИИ ориентироваться в интерфейсах, Gemini 3.5 Flash набрала 78.4 балла. Этот результат позволяет ей обойти Gemini 3 Flash (65.1) и даже GPT-5.4 mini от OpenAI, показавшую 72.1 балла. Впрочем, до лидерства пока далеко: Opus 4.8 от Anthropic удерживает первенство с результатом 83.4, а GPT-5.5 идет чуть впереди с 78.7 баллами.

Для индустрии это означает, что «легкие» модели становятся достаточно умными, чтобы справляться с задачами, которые раньше были под силу только тяжеловесным флагманам. Gemini 3.5 Flash фактически наступает на пятки более крупной Gemini 3.1 Pro, чей результат составил 76.2 балла. Подобная плотность результатов наводит на мысли о том, что оптимизация архитектуры сейчас важнее простого наращивания параметров.

Прямой доступ ИИ к управлению экраном — это не просто удобство, а перенос ответственности за безопасность на плечи разработчика. Несмотря на высокие баллы в тестах, реальная эксплуатация неизбежно столкнется с проблемой «галлюцинаций в интерфейсе», когда модель может нажать не ту кнопку в критически важной корпоративной системе. Google делает ставку на скорость Flash-версии, но игнорирует тот факт, что в автоматизации рабочих процессов надежность важнее миллисекунд задержки.

Безопасность и методы внедрения

Чтобы минимизировать риски prompt injection (атак через внедрение вредоносных инструкций), Google внедрила методы состязательного обучения и специфические защитные механизмы для корпоративного сектора. Один из них требует обязательного подтверждения пользователем любых необратимых действий, а второй автоматически блокирует выполнение задачи при обнаружении подозрительных косвенных команд в контексте.

Разработчикам, планирующим использовать новые возможности, Google рекомендует придерживаться строгого протокола безопасности:

Использование изолированных сред (песочниц) для выполнения действий модели.
Обеспечение постоянного человеческого контроля над критическими процессами.
Настройка жестких ограничений доступа к системным ресурсам.

Функционал уже доступен через Gemini API и платформу Gemini Enterprise Agent Platform. Для тех, кто хочет опробовать технологию на практике, подготовлена демонстрационная версия Browserbase и референсная реализация на GitHub, позволяющая оценить, насколько уверенно нейросеть чувствует себя в кресле оператора вашего компьютера.

Новости

Google внедряет прямое управление компьютером в Gemini 3.5 Flash

Производительность и позиционирование на рынке

Безопасность и методы внедрения

Еще интереснее

Гибридный подход к безопасности: LLM улучшают противопожарные системы в метро

Закрытая модель Mythos от Anthropic обнаружила уязвимости в сетях спецслужб США

Сотни iOS-приложений с ИИ компрометируют учетные данные пользователей

Google DeepMind внедряет режим «нулевого доверия» для контроля за ИИ-агентами

Оставить комментарий