Обновленные голосовые модели Gemini от Google

Google обновила голосовые модели Gemini с улучшенным выполнением функций и живым переводом речи. Технология уже используется компаниями для бизнес-задач.

Оглавление

Улучшенные голосовые агенты
Живой перевод речи
Реальные кейсы применения

Компания DeepMind анонсировала значительное обновление аудиомоделей Gemini 2.5 Flash, которые теперь обеспечивают более естественные голосовые взаимодействия в реальном времени. Новые возможности охватывают как бизнес-приложения в виде голосовых агентов, так и функции перевода речи для повседневного использования.

Улучшенные голосовые агенты

Обновленная модель Gemini 2.5 Flash Native Audio демонстрирует существенные улучшения в трех ключевых областях:

Более точное выполнение функций: Модель надежнее определяет, когда требуется получение информации из внешних источников во время разговора, и плавно интегрирует эти данные в аудиоответ. На тесте ComplexFuncBench Audio модель показывает результат в 71,5%
Следование инструкциям: Уровень соблюдения разработческих инструкций вырос с 84% до 90%
Плавность диалога: Улучшена способность извлекать контекст из предыдущих реплик

Модель уже доступна в Google AI Studio, Vertex AI, а также постепенно внедряется в Gemini Live и Search Live.

Живой перевод речи

Одновременно с улучшением голосовых агентов представлена функция живого перевода речи, которая работает в режиме реального времени для наушников. Система сохраняет интонацию, темп и высоту голоса говорящего.

Ключевые возможности перевода:

Поддержка более 70 языков и 2000 языковых пар
Сохранение стиля речи говорящего
Распознавание нескольких языков в одной сессии
Автоматическое определение языка
Устойчивость к шуму

Диаграмма сравнения производительности Gemini 2.5 Flash Native Audio с предыдущими версиями и конкурентами — Источник: www.deepmind.google.com

Бета-версия уже доступна в приложении Google Translate для Android в США, Мексике и Индии, с поддержкой iOS и других регионов в ближайшее время.

Технический прогресс впечатляет, но рынок голосовых интерфейсов все еще сталкивается с фундаментальной проблемой: пользователи быстро устают от длительных разговоров с ИИ, независимо от его «естественности». Google делает ставку на интеграцию своих моделей во все продукты экосистемы — классическая стратегия доминирования через масштаб. Интересно, насколько быстро локальные провайдеры смогут предложить конкурентоспособные решения без доступа к аналогичным вычислительным ресурсам.

Реальные кейсы применения

Крупные компании уже используют новые возможности в производственных средах. Shopify внедрил систему для поддержки мерчантов, United Wholesale Mortgage обработала более 14 000 кредитных заявок, а Newo.ai создала виртуальных ресепшионистов, способных работать в шумной обстановке и переключаться между языками.

По сообщению DeepMind, на основе обратной связи разработчики продолжат улучшать функциональность и планируют интегрировать ее в большее количество продуктов Google, включая Gemini API в 2026 году.

Новости

Google представила обновленные голосовые модели Gemini для улучшенного взаимодействия

Улучшенные голосовые агенты

Живой перевод речи

Реальные кейсы применения

Еще интереснее

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

OpenAI представила GPT-5.3 Instant с меньшим числом галлюцинаций и естественным диалогом

Оставить комментарий