Оглавление

По сообщению AWS Machine Learning Blog, Amazon представила Nova Sonic — модель искусственного интеллекта, которая позволяет создавать полностью голосовые интерфейсы для веб-приложений. Это не просто голосовые команды, а полноценные двусторонние диалоги с поддержкой контекста и сложных рабочих процессов.

От графических интерфейсов к голосовым ассистентам

Графические пользовательские интерфейсы десятилетиями доминировали в веб-разработке, но современные пользователи все чаще ожидают возможности общаться с приложениями голосом. Amazon Nova Sonic представляет собой передовую базовую модель из сервиса Amazon Bedrock, которая обеспечивает естественные двусторонние речевые диалоги с низкой задержкой через простой потоковый API.

Эта технология позволяет пользователям взаимодействовать с приложениями через голос и встроенный интеллект, а не просто управлять ими традиционными способами.

Новые возможности голосового взаимодействия

Amazon Nova Sonic выходит далеко за рамки простых голосовых команд. Модель способна:

  • Планировать многошаговые рабочие процессы
  • Вызывать серверные инструменты
  • Сохранять контекст между диалогами

В таблице ниже показаны примеры голосовых взаимодействий из различных областей применения:

Голосовая команда Намерение Действие системы Подтверждение
Отметь все мои задачи как выполненные Массовое завершение задач Находит открытые задачи пользователя → отмечает выполнеными → архивирует при настройке Все 12 открытых задач отмечены как выполненные
Создай план подготовки бюджета на Q3: разбей на этапы, назначь ответственных и установи сроки Создание многошагового рабочего процесса Генерирует план → создает задачи → назначает владельцев → устанавливает сроки → предлагает варианты проверки План создан с 6 задачами. Уведомить владельцев?

Интересно наблюдать, как голосовые интерфейсы из маркетинговой фичи превращаются в полноценные инструменты производительности. Особенно впечатляет способность Nova Sonic работать с контекстом — это делает взаимодействие действительно осмысленным, а не просто набором команд. Хотя пока остается вопрос, насколько такие системы будут устойчивы к шумам и неоднозначным формулировкам в реальных условиях.

Архитектура двустороннего API

Amazon Nova Sonic реализует архитектуру двустороннего потокового вещания в реальном времени. После инициализации сессии с помощью InvokeModelWithBidirectionalStream аудиовход и ответы модели одновременно передаются через открытый поток:

  • Начало сессии — клиент отправляет событие sessionStart с конфигурацией модели
  • Запуск контента — клиент отправляет структурированные события, указывающие тип данных (аудио, текст или инструмент)
  • Аудиопоток — аудио с микрофона передается в виде событий с кодировкой base64
  • Ответы модели — модель обрабатывает входные данные и асинхронно передает результаты распознавания речи, вызовы инструментов, текстовые ответы и аудиовыход для воспроизведения
  • Завершение сессии — диалоги явно закрываются отправкой событий завершения
Диаграмма архитектуры Amazon Nova Sonic для голосового управления
Источник: aws.amazon.com

Эта событийно-ориентированная архитектура позволяет прерывать ассистента, поддерживать многошаговые диалоги и обеспечивать адаптивность в реальном времени.

Серверная архитектура решения

Для реализации решения используется бессерверная архитектура приложения, где пользовательский интерфейс представляет собой React одностраничное приложение, интегрированное с веб-API на серверных контейнерах.

Диаграмма архитектуры умного приложения для управления задачами
Источник: aws.amazon.com

Ключевые сервисы AWS включают:

  • Amazon Bedrock — обеспечивает двусторонние речевые взаимодействия через модель Amazon Nova Sonic
  • Amazon CloudFront — доставляет контент и обеспечивает низкую задержку

Smart Todo App развертывается с использованием масштабируемой и безопасной архитектуры AWS, предназначенной для поддержки голосовых взаимодействий в реальном времени.

Этот подход демонстрирует, как современные облачные технологии позволяют создавать сложные голосовые интерфейсы без необходимости строить инфраструктуру с нуля. Особенно важно, что решение масштабируется автоматически и может адаптироваться под различные сценарии использования.