OpenAI представила коммерческую версию Realtime API с новой речевой моделью gpt-realtime, которая показывает значительный прогресс в качестве звука, понимании контекста и вызове функций. По сообщению OpenAI, обновление включает поддержку удаленных MCP-серверов, работу с изображениями и SIP-телефонию.
Что изменилось в Realtime API
Realtime API теперь доступен для промышленного использования после бета-тестирования, начавшегося в октябре 2024 года. Ключевые нововведения:
- Поддержка удаленных MCP-серверов — интеграция инструментов без ручной настройки
- Работа с изображениями — модель анализирует скриншоты и фотографии в реальном времени
- SIP-телефония — прямое подключение к телефонным сетям
- Две новые голосовые модели — Cedar и Marin с улучшенной естественностью
Технические улучшения gpt-realtime
Новая speech-to-speech модель показывает впечатляющие результаты в бенчмарках:
- Big Bench Audio — 82.8% против 65.6% у предыдущей версии
- MultiChallenge — 30.5% против 20.6% в следовании инструкциям
- ComplexFuncBench — 66.5% против 49.7% в точности вызова функций
Модель лучше распознает невербальные сигналы (смех, паузы), переключается между языками в середине предложения и точнее работает с алфавитно-цифровыми последовательностями на испанском, китайском, японском и французском.
Это не просто эволюция, а качественный скачок в речевом ИИ. Возможность анализировать изображения в реальном времени и асинхронный вызов функций без прерывания диалога — именно те функции, которых не хватало разработчикам для создания по-настоящему полезных голосовых ассистентов. Интересно, сколько будет стоить такая мощь в продакшене — традиционные пайплайны из STT+TTS хотя бы предсказуемы в цене.
Практическое применение
Как отмечает Джош Вайсберг, глава AI в Zillow, новая модель позволяет обрабатывать сложные многошаговые запросы, такие как подбор жилья по критериям или обсуждение финансовых возможностей, делая взаимодействие естественным как разговор с другом.
Пример конфигурации MCP-сервера для Realtime API:
{ "session": { "type": "realtime", "tools": [ { "type": "mcp", "server_label": "stripe", "server_url": "https://mcp.stripe.com", "authorization": "{access_token}", "require_approval": "never" } ] } }
Обновление существующих восьми голосовых моделей и добавление двух новых голосов делает систему более универсальной для различных сценариев — от клиентской поддержки до образовательных приложений.
Оставить комментарий