Gemini Live от Google теперь с визуальными командами и управлением приложениями

Google обновил Gemini Live: ассистент теперь визуально указывает на объекты через камеру, управляет приложениями и говорит с эмоциями.

Оглавление

Визуальное руководство в реальном времени
Глубокая интеграция с приложениями
Естественная речь с эмоциями

По сообщению The Verge, Google представил серьезное обновление для своего голосового ассистента Gemini Live, который теперь может не только говорить, но и показывать — буквально.

Визуальное руководство в реальном времени

Самое впечатляющее нововведение — функция визуальных команд. Теперь, когда вы направляете камеру смартфона на объекты, Gemini Live может выделять на экране конкретные элементы. Например, если вы покажете набор инструментов, ассистент подсветит именно тот, который вам нужен для задачи.

Демонстрация работы функции Gemini Live с визуальным наведением и управлением приложениями — Источник: www.theverge.com

Функция будет доступна на новых Pixel 10 с 28 августа, а затем появится на других Android-устройствах и позже — на iOS.

Глубокая интеграция с приложениями

Google также анонсировал расширенную интеграцию с системными приложениями: Сообщениями, Телефоном и Часами. Теперь можно прервать диалог с Gemini командой вроде: «Отправь Алексу сообщение, что я опаздываю на 10 минут» — и ассистент составит и отправит текст.

Естественная речь с эмоциями

Обновленная аудиомодель Gemini Live научилась использовать интонацию, ритм и pitch человеческой речи. Ассистент теперь меняет тон в зависимости от контекста — говорит спокойнее при обсуждении стрессовых тем или может использовать акцент для драматического повествования от лица исторического персонажа.

Пользователи также получат контроль над скоростью речи ассистента — функция, похожая на недавнее обновление голосового режима ChatGPT.

Визуальное взаимодействие — это тот рубеж, где голосовые ассистенты перестают быть просто говорящими колонками и становятся настоящими цифровыми партнерами. Способность Gemini Live указывать на объекты в реальном мире — это не просто фича, а фундаментальный шаг к смешанной реальности, где ИИ становится нашим гидом в физическом пространстве. Интересно, насколько точно работает компьютерное зрение в сложных условиях — при плохом освещении или с мелкими объектами.

Новости

Google Gemini Live научился визуально направлять пользователей и управлять приложениями

Визуальное руководство в реальном времени

Глубокая интеграция с приложениями

Естественная речь с эмоциями

Еще интереснее

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

OpenAI представила GPT-5.3 Instant с меньшим числом галлюцинаций и естественным диалогом

Оставить комментарий