Оглавление

Голосовые агенты становятся ключевым интерфейсом взаимодействия с технологиями, и их архитектура определяет, насколько естественным будет диалог. Hugging Face пишет о трех основных подходах к построению таких систем.

Три парадигмы архитектуры голосовых агентов

Основная задача любой голосовой системы — преобразовать речь в понимание, обработать его и вернуть ответ в аудиоформе. Современные подходы можно разделить на три категории.

Классическая архитектура: проверенная основа

Традиционный подход объединяет три независимых компонента:

  • Автоматическое распознавание речи (ASR) — «уши» системы, преобразующие речь в текст. Современные модели на базе архитектуры Transformer справляются с детектированием речи, идентификацией языка и даже переводом.
  • Большие языковые модели (LLM) — «мозг», отвечающий за понимание контекста, генерацию ответов и выполнение действий.
  • Преобразование текста в речь (TTS) — «рот», преобразующий текстовый ответ в синтезированную речь.
Диаграмма архитектуры аудио LLM с единой обработкой в реальном времени

В рамках ASR и TTS модели делятся на офлайн и реального времени. Офлайн-модели (например, Whisper-large-v3) обрабатывают весь аудиовход сразу и характеризуются высокой задержкой. Стриминговые модели (CosyVoiceTTS, KyutaiTTS) работают инкрементально, что критично для интерактивных сценариев.

Архитектура Real-time Audio LLM: унификация для скорости

Для оптимизации задержки и улучшения пользовательского опыта появилась архитектура Real-time Audio LLM. Она использует единую модель, способную одновременно обрабатывать текст и речь, заменяя отдельные ASR и LLM компоненты.

Такие модели (Qwen-audio, Voxtral, Ultravox) предлагают:

  • Прямое распознавание аудио
  • Ответы на вопросы
  • Анализ аудио (тон, эмоции)
  • Интеграцию с внешними инструментами

Авторегрессионная природа этих моделей позволяет напрямую передавать вывод в потоковом режиме, создавая более естественный диалог.

Модели преобразования речи в речь (S2S): полная унификация

Модели преобразования речи в речь (S2S) представляют собой передовой край архитектуры голосовых агентов. Это единые системы, которые получают аудио на вход и генерируют аудио на выходе без промежуточного преобразования в текст.

Преимущества S2S подходов (Qwen-omni, Higgs-v2, Moshi):

  • Значительно меньшая задержка
  • Лучшее понимание нюансов речи (просодия, эмоции)
  • Упрощенная архитектура системы

Ирония в том, что мы прошли полный круг: от раздельных компонентов к полной унификации. S2S модели — это как вернуться к естественной человеческой коммуникации, но с искусственным интеллектом внутри. Вопрос только в том, когда они перестанут путать запрос на погоду с заказом пиццы.

Критическая метрика: задержка в голосовых агентах

Основная цель разработчиков — достижение минимальной задержки между окончанием речи пользователя и началом ответа системы. Естественный диалог требует, чтобы эта задержка была практически незаметной.

Измерение задержки «голос-голос» можно выполнить вручную:

  1. Записать диалог с агентом
  2. Загрузить запись в аудиоредактор
  3. Анализировать аудиоволну
  4. Измерить время от конца речи пользователя до начала ответа агента

Целевой показатель для хорошей задержки — около 800 миллисекунд.

Ключевые факторы влияния на задержку

На задержку влияют два основных компонента:

Задержка LLM — время обработки запроса моделью. Критически важна метрика Время до первого токена (TTFT) — время от отправки промпта до получения первого токена.

Задержка TTS — включает Время до первого байта (TTFB) и средний интервал перед речью. Современные TTS системы должны минимизировать эти показатели.

Лучшие практики разработки

Помимо архитектурных решений и оптимизации задержки, важны общесистемные практики разработки голосовых агентов:

  • Выбор LLM с эффективным следованием инструкциям
  • Интеграция возможностей вызова инструментов
  • Минимизация галлюцинаций и некорректных ответов
  • Баланс между производительностью и стоимостью

Современные голосовые агенты — это сложные системы, где каждая миллисекунда имеет значение, а естественность диалога зависит от гармоничного взаимодействия всех компонентов.