Оглавление

OpenAI представила коммерческую версию Realtime API с новой речевой моделью gpt-realtime, которая показывает значительный прогресс в качестве звука, понимании контекста и вызове функций. По сообщению OpenAI, обновление включает поддержку удаленных MCP-серверов, работу с изображениями и SIP-телефонию.

Что изменилось в Realtime API

Realtime API теперь доступен для промышленного использования после бета-тестирования, начавшегося в октябре 2024 года. Ключевые нововведения:

  • Поддержка удаленных MCP-серверов — интеграция инструментов без ручной настройки
  • Работа с изображениями — модель анализирует скриншоты и фотографии в реальном времени
  • SIP-телефония — прямое подключение к телефонным сетям
  • Две новые голосовые модели — Cedar и Marin с улучшенной естественностью

Технические улучшения gpt-realtime

Новая speech-to-speech модель показывает впечатляющие результаты в бенчмарках:

  • Big Bench Audio — 82.8% против 65.6% у предыдущей версии
  • MultiChallenge — 30.5% против 20.6% в следовании инструкциям
  • ComplexFuncBench — 66.5% против 49.7% в точности вызова функций

Модель лучше распознает невербальные сигналы (смех, паузы), переключается между языками в середине предложения и точнее работает с алфавитно-цифровыми последовательностями на испанском, китайском, японском и французском.

Это не просто эволюция, а качественный скачок в речевом ИИ. Возможность анализировать изображения в реальном времени и асинхронный вызов функций без прерывания диалога — именно те функции, которых не хватало разработчикам для создания по-настоящему полезных голосовых ассистентов. Интересно, сколько будет стоить такая мощь в продакшене — традиционные пайплайны из STT+TTS хотя бы предсказуемы в цене.

Практическое применение

Как отмечает Джош Вайсберг, глава AI в Zillow, новая модель позволяет обрабатывать сложные многошаговые запросы, такие как подбор жилья по критериям или обсуждение финансовых возможностей, делая взаимодействие естественным как разговор с другом.

Пример конфигурации MCP-сервера для Realtime API:

{
"session": {
 "type": "realtime",
 "tools": [
 {
 "type": "mcp",
 "server_label": "stripe",
 "server_url": "https://mcp.stripe.com",
 "authorization": "{access_token}",
 "require_approval": "never"
 }
 ]
}
}

Обновление существующих восьми голосовых моделей и добавление двух новых голосов делает систему более универсальной для различных сценариев — от клиентской поддержки до образовательных приложений.