Оглавление

OpenAI представила важное обновление для своей платформы gpt-realtime, добавив поддержку протоколов MCP и SIP через специализированный API. Эти изменения позволяют предприятиям создавать более автономных и многофункциональных голосовых агентов с доступом к удаленным инструментам, интеграцией с телефонными системами и расширенным контекстным пониманием.

Технические детали обновления

Поддержка удаленных серверов Model Context Protocol в Realtime API, который теперь общедоступен, позволяет разработчикам программировать голосовых агентов для доступа к внешним возможностям и инструментам, перечисленным как MCP-серверы в интернете или на других серверах.

Предприятия могут активировать поддержку MCP в сессии API, передав URL удаленного MCP-сервера в конфигурацию сессии. Как объясняет компания в записи блога: «После подключения API автоматически обрабатывает вызовы инструментов, поэтому нет необходимости вручную настраивать интеграции. Такая настройка упрощает расширение возможностей вашего агента»

Интеграция с телефонными системами

Добавленная поддержка SIP (Session Initiation Protocol) — стандарта для инициирования и управления голосовыми вызовами в реальном времени по IP-сетям — позволит предприятиям интегрировать ИИ-голосовых агентов напрямую с PBX-системами и телефонными сетями.

Как отмечает Чарли Дай, вице-президент и главный аналитик Forrester: «Примерами случаев использования, где предприятия могут воспользоваться преимуществами поддержки SIP в API, являются автоматическая обработка вызовов, планирование встреч и многоязычная поддержка клиентского сервиса в контакт-центрах»

Мультимодальные возможности и улучшения

Чтобы сделать модель gpt-realtime более эффективной для голосовых сценариев использования, OpenAI добавила поддержку изображений. Теперь пользователи могут включать визуальные элементы, такие как фотографии, скриншоты или другие изображения, вместе с текстом или аудио в сессии.

Это позволяет модели интерпретировать и реагировать на основе визуального представления, делая возможными вопросы вроде «Что ты видишь?» или «Можешь прочитать текст на этом изображении?»

Добавление MCP и SIP поддержки — это не просто техническое обновление, а стратегический ход в борьбе за корпоративный рынок. Теперь голосовые агенты OpenAI могут напрямую интегрироваться с бизнес-инфраструктурой, что делает их реальной альтернативой традиционным контакт-центрам. Интересно, сколько компаний уже готовы доверить ИИ полный цикл клиентского обслуживания.

Помимо добавления поддержки изображений, OpenAI улучшила контекстную осведомленность и память модели gpt-realtime. Обновленная модель также демонстрирует улучшения в:

  • Следовании сложным инструкциям
  • Точности вызова инструментов
  • Производстве речи, которая «звучит более естественно и выразительно»

Эти улучшения помогут предприятиям использовать API для обеспечения низколатентных, естественных голосовых взаимодействий для широкого спектра случаев использования, включая медицинскую транскрипцию в реальном времени, ассистентов для бронирования, клиентский сервис для банков, страховых компаний и телекомов.

Предприятия, получающие доступ к модели через API, могут использовать два новых голоса: Cedar и Marin. Интересно, что крупнейший инвестор OpenAI, Microsoft, также анонсировал на этой неделе две модели преобразования текста в речь, которые, по словам технологического гиганта, помогут открыть корпоративные случаи использования.

По сообщению InfoWorld, эти обновления знаменуют важный шаг в развитии голосовых ИИ-агентов для корпоративного сектора.