ElevenLabs выпустила синтезатор речи нового поколения с диалогами

ElevenLabs выпустила альфа-версию синтезатора речи v3 с поддержкой многоголосых диалогов и 70+ языков. Модель уже интегрирована в продукты HeyGen, Poe и Captions.

Оглавление

Ключевые возможности новой версии
Партнерства и ранние внедрения

Компания ElevenLabs представила альфа-версию своей новой модели синтеза речи Eleven v3, которая теперь доступна через API для разработчиков. Модель обещает революционный уровень выразительности и поддержку многоголосых диалогов.

Скриншот интерфейса API альфа-версии Eleven v3 с синтезатором речи нового поколения — Источник: elevenlabs.io

Обзор возможностей альфа-версии API Eleven v3 от ElevenLabs — Источник: elevenlabs.io

Ключевые возможности новой версии

Eleven v3 (alpha) представляет собой значительный шаг вперед в технологии преобразования текста в речь. Среди основных нововведений:

Режим диалога с неограниченным количеством говорящих
Поддержка более 70 языков
Улучшенный контроль голоса и эмоций с помощью аудиотегов

Эти функции позволяют разработчикам создавать реалистичные, насыщенные речевые впечатления для любых случаев использования. Благодаря режиму диалога, Eleven v3 (alpha) может генерировать правдоподобные многоголосые разговоры, обрабатывающие прерывания, изменения тона и эмоциональные сигналы на основе контекста.

Технологический скачок впечатляет, но настоящая проверка наступит, когда разработчики массово начнут интегрировать это в реальные продукты. Возможность создавать естественные диалоги с эмоциональной окраской открывает новые горизонты для индустрии развлечений и не только.

Партнерства и ранние внедрения

За последние недели ElevenLabs сотрудничал с ведущими компаниями, включая HeyGen, Poe (by Quora) и Captions для интеграции Eleven v3 (alpha) в их продукты.

Инновационные компании могут предоставлять своим пользователям более увлекательный контент. Например, HeyGen использует Eleven v3 (alpha) для улучшения рабочих процессов производства видео с аватарами с помощью динамического многоязычного генератора голоса.

Модели ElevenLabs продолжают оставаться наиболее используемой моделью генерации аудио на Poe. Теперь кнопка воспроизведения речи в Poe будет использовать ElevenLabs v3 для преобразования текстовых ответов в аудио.

Captions интегрирует Eleven v3 (alpha) в свою AI-видеоплатформу Mirage Studio, предоставляя маркетологам и командам возможность обеспечить актеров с одинаково динамичными и выразительными голосами, сообщает ElevenLabs.