Компания DeepMind анонсировала значительное обновление аудиомоделей Gemini 2.5 Flash, которые теперь обеспечивают более естественные голосовые взаимодействия в реальном времени. Новые возможности охватывают как бизнес-приложения в виде голосовых агентов, так и функции перевода речи для повседневного использования.
Улучшенные голосовые агенты
Обновленная модель Gemini 2.5 Flash Native Audio демонстрирует существенные улучшения в трех ключевых областях:
- Более точное выполнение функций: Модель надежнее определяет, когда требуется получение информации из внешних источников во время разговора, и плавно интегрирует эти данные в аудиоответ. На тесте ComplexFuncBench Audio модель показывает результат в 71,5%
- Следование инструкциям: Уровень соблюдения разработческих инструкций вырос с 84% до 90%
- Плавность диалога: Улучшена способность извлекать контекст из предыдущих реплик
Модель уже доступна в Google AI Studio, Vertex AI, а также постепенно внедряется в Gemini Live и Search Live.
Живой перевод речи
Одновременно с улучшением голосовых агентов представлена функция живого перевода речи, которая работает в режиме реального времени для наушников. Система сохраняет интонацию, темп и высоту голоса говорящего.
Ключевые возможности перевода:
- Поддержка более 70 языков и 2000 языковых пар
- Сохранение стиля речи говорящего
- Распознавание нескольких языков в одной сессии
- Автоматическое определение языка
- Устойчивость к шуму

Бета-версия уже доступна в приложении Google Translate для Android в США, Мексике и Индии, с поддержкой iOS и других регионов в ближайшее время.
Технический прогресс впечатляет, но рынок голосовых интерфейсов все еще сталкивается с фундаментальной проблемой: пользователи быстро устают от длительных разговоров с ИИ, независимо от его «естественности». Google делает ставку на интеграцию своих моделей во все продукты экосистемы — классическая стратегия доминирования через масштаб. Интересно, насколько быстро локальные провайдеры смогут предложить конкурентоспособные решения без доступа к аналогичным вычислительным ресурсам.
Реальные кейсы применения
Крупные компании уже используют новые возможности в производственных средах. Shopify внедрил систему для поддержки мерчантов, United Wholesale Mortgage обработала более 14 000 кредитных заявок, а Newo.ai создала виртуальных ресепшионистов, способных работать в шумной обстановке и переключаться между языками.
По сообщению DeepMind, на основе обратной связи разработчики продолжат улучшать функциональность и планируют интегрировать ее в большее количество продуктов Google, включая Gemini API в 2026 году.
Оставить комментарий