OpenAI выпускает GPT-Realtime с улучшенным голосовым ИИ

OpenAI запустила коммерческую версию Realtime API с улучшенной речевой моделью gpt-realtime, поддержкой изображений и MCP-серверов для промышленного использования голосовых агентов.

Оглавление

Что изменилось в Realtime API
Технические улучшения gpt-realtime
Практическое применение

OpenAI представила коммерческую версию Realtime API с новой речевой моделью gpt-realtime, которая показывает значительный прогресс в качестве звука, понимании контекста и вызове функций. По сообщению OpenAI, обновление включает поддержку удаленных MCP-серверов, работу с изображениями и SIP-телефонию.

Что изменилось в Realtime API

Realtime API теперь доступен для промышленного использования после бета-тестирования, начавшегося в октябре 2024 года. Ключевые нововведения:

Поддержка удаленных MCP-серверов — интеграция инструментов без ручной настройки
Работа с изображениями — модель анализирует скриншоты и фотографии в реальном времени
SIP-телефония — прямое подключение к телефонным сетям
Две новые голосовые модели — Cedar и Marin с улучшенной естественностью

Технические улучшения gpt-realtime

Новая speech-to-speech модель показывает впечатляющие результаты в бенчмарках:

Big Bench Audio — 82.8% против 65.6% у предыдущей версии
MultiChallenge — 30.5% против 20.6% в следовании инструкциям
ComplexFuncBench — 66.5% против 49.7% в точности вызова функций

Модель лучше распознает невербальные сигналы (смех, паузы), переключается между языками в середине предложения и точнее работает с алфавитно-цифровыми последовательностями на испанском, китайском, японском и французском.

Это не просто эволюция, а качественный скачок в речевом ИИ. Возможность анализировать изображения в реальном времени и асинхронный вызов функций без прерывания диалога — именно те функции, которых не хватало разработчикам для создания по-настоящему полезных голосовых ассистентов. Интересно, сколько будет стоить такая мощь в продакшене — традиционные пайплайны из STT+TTS хотя бы предсказуемы в цене.

Практическое применение

Как отмечает Джош Вайсберг, глава AI в Zillow, новая модель позволяет обрабатывать сложные многошаговые запросы, такие как подбор жилья по критериям или обсуждение финансовых возможностей, делая взаимодействие естественным как разговор с другом.

Пример конфигурации MCP-сервера для Realtime API:

{
"session": {
 "type": "realtime",
 "tools": [
 {
 "type": "mcp",
 "server_label": "stripe",
 "server_url": "https://mcp.stripe.com",
 "authorization": "{access_token}",
 "require_approval": "never"
 }
 ]
}
}

Обновление существующих восьми голосовых моделей и добавление двух новых голосов делает систему более универсальной для различных сценариев — от клиентской поддержки до образовательных приложений.

Новости

OpenAI выпускает GPT-Realtime с улучшенным голосовым ИИ и поддержкой изображений

Что изменилось в Realtime API

Технические улучшения gpt-realtime

Практическое применение

Еще интереснее

Nvidia представила технологию KVTC с 20-кратным сжатием памяти для открытых LLM

Японская корпорация Rakuten выпустила новую модель Rakuten AI 3.0 под открытой лицензией

Perplexity запускает интеллектуальный маршрутизатор — систему Computer for Enterprise

ИИ-индустрия переходит от простого предсказания к рассуждениям благодаря RL

Оставить комментарий