Оглавление

Компания DeepMind анонсировала значительное обновление аудиомоделей Gemini 2.5 Flash, которые теперь обеспечивают более естественные голосовые взаимодействия в реальном времени. Новые возможности охватывают как бизнес-приложения в виде голосовых агентов, так и функции перевода речи для повседневного использования.

Улучшенные голосовые агенты

Обновленная модель Gemini 2.5 Flash Native Audio демонстрирует существенные улучшения в трех ключевых областях:

  • Более точное выполнение функций: Модель надежнее определяет, когда требуется получение информации из внешних источников во время разговора, и плавно интегрирует эти данные в аудиоответ. На тесте ComplexFuncBench Audio модель показывает результат в 71,5%
  • Следование инструкциям: Уровень соблюдения разработческих инструкций вырос с 84% до 90%
  • Плавность диалога: Улучшена способность извлекать контекст из предыдущих реплик

Модель уже доступна в Google AI Studio, Vertex AI, а также постепенно внедряется в Gemini Live и Search Live.

Живой перевод речи

Одновременно с улучшением голосовых агентов представлена функция живого перевода речи, которая работает в режиме реального времени для наушников. Система сохраняет интонацию, темп и высоту голоса говорящего.

Ключевые возможности перевода:

  • Поддержка более 70 языков и 2000 языковых пар
  • Сохранение стиля речи говорящего
  • Распознавание нескольких языков в одной сессии
  • Автоматическое определение языка
  • Устойчивость к шуму
Диаграмма сравнения производительности Gemini 2.5 Flash Native Audio с предыдущими версиями и конкурентами
Источник: www.deepmind.google.com

Бета-версия уже доступна в приложении Google Translate для Android в США, Мексике и Индии, с поддержкой iOS и других регионов в ближайшее время.

Технический прогресс впечатляет, но рынок голосовых интерфейсов все еще сталкивается с фундаментальной проблемой: пользователи быстро устают от длительных разговоров с ИИ, независимо от его «естественности». Google делает ставку на интеграцию своих моделей во все продукты экосистемы — классическая стратегия доминирования через масштаб. Интересно, насколько быстро локальные провайдеры смогут предложить конкурентоспособные решения без доступа к аналогичным вычислительным ресурсам.

Реальные кейсы применения

Крупные компании уже используют новые возможности в производственных средах. Shopify внедрил систему для поддержки мерчантов, United Wholesale Mortgage обработала более 14 000 кредитных заявок, а Newo.ai создала виртуальных ресепшионистов, способных работать в шумной обстановке и переключаться между языками.

По сообщению DeepMind, на основе обратной связи разработчики продолжат улучшать функциональность и планируют интегрировать ее в большее количество продуктов Google, включая Gemini API в 2026 году.