Оглавление
По сообщению AWS Machine Learning Blog, Amazon представила Nova Sonic — модель искусственного интеллекта, которая позволяет создавать полностью голосовые интерфейсы для веб-приложений. Это не просто голосовые команды, а полноценные двусторонние диалоги с поддержкой контекста и сложных рабочих процессов.
От графических интерфейсов к голосовым ассистентам
Графические пользовательские интерфейсы десятилетиями доминировали в веб-разработке, но современные пользователи все чаще ожидают возможности общаться с приложениями голосом. Amazon Nova Sonic представляет собой передовую базовую модель из сервиса Amazon Bedrock, которая обеспечивает естественные двусторонние речевые диалоги с низкой задержкой через простой потоковый API.
Эта технология позволяет пользователям взаимодействовать с приложениями через голос и встроенный интеллект, а не просто управлять ими традиционными способами.
Новые возможности голосового взаимодействия
Amazon Nova Sonic выходит далеко за рамки простых голосовых команд. Модель способна:
- Планировать многошаговые рабочие процессы
- Вызывать серверные инструменты
- Сохранять контекст между диалогами
В таблице ниже показаны примеры голосовых взаимодействий из различных областей применения:
| Голосовая команда | Намерение | Действие системы | Подтверждение |
|---|---|---|---|
| Отметь все мои задачи как выполненные | Массовое завершение задач | Находит открытые задачи пользователя → отмечает выполнеными → архивирует при настройке | Все 12 открытых задач отмечены как выполненные |
| Создай план подготовки бюджета на Q3: разбей на этапы, назначь ответственных и установи сроки | Создание многошагового рабочего процесса | Генерирует план → создает задачи → назначает владельцев → устанавливает сроки → предлагает варианты проверки | План создан с 6 задачами. Уведомить владельцев? |
Интересно наблюдать, как голосовые интерфейсы из маркетинговой фичи превращаются в полноценные инструменты производительности. Особенно впечатляет способность Nova Sonic работать с контекстом — это делает взаимодействие действительно осмысленным, а не просто набором команд. Хотя пока остается вопрос, насколько такие системы будут устойчивы к шумам и неоднозначным формулировкам в реальных условиях.
Архитектура двустороннего API
Amazon Nova Sonic реализует архитектуру двустороннего потокового вещания в реальном времени. После инициализации сессии с помощью InvokeModelWithBidirectionalStream аудиовход и ответы модели одновременно передаются через открытый поток:
- Начало сессии — клиент отправляет событие
sessionStartс конфигурацией модели - Запуск контента — клиент отправляет структурированные события, указывающие тип данных (аудио, текст или инструмент)
- Аудиопоток — аудио с микрофона передается в виде событий с кодировкой base64
- Ответы модели — модель обрабатывает входные данные и асинхронно передает результаты распознавания речи, вызовы инструментов, текстовые ответы и аудиовыход для воспроизведения
- Завершение сессии — диалоги явно закрываются отправкой событий завершения

Эта событийно-ориентированная архитектура позволяет прерывать ассистента, поддерживать многошаговые диалоги и обеспечивать адаптивность в реальном времени.
Серверная архитектура решения
Для реализации решения используется бессерверная архитектура приложения, где пользовательский интерфейс представляет собой React одностраничное приложение, интегрированное с веб-API на серверных контейнерах.

Ключевые сервисы AWS включают:
- Amazon Bedrock — обеспечивает двусторонние речевые взаимодействия через модель Amazon Nova Sonic
- Amazon CloudFront — доставляет контент и обеспечивает низкую задержку
Smart Todo App развертывается с использованием масштабируемой и безопасной архитектуры AWS, предназначенной для поддержки голосовых взаимодействий в реальном времени.
Этот подход демонстрирует, как современные облачные технологии позволяют создавать сложные голосовые интерфейсы без необходимости строить инфраструктуру с нуля. Особенно важно, что решение масштабируется автоматически и может адаптироваться под различные сценарии использования.
Оставить комментарий