ChatGPT теперь поддерживает голосовой ввод на 70+ языках

OpenAI обновила приложение ChatGPT, добавив поддержку более 70 языков и автоматическое определение речи, а также представила новые API для разработчиков.

Оглавление

Инструментарий для разработчиков: семейство GPT-Realtime
Практическое применение и рыночные перспективы

OpenAI продолжает методично устранять языковые барьеры, превращая свой мобильный клиент в некое подобие универсального переводчика из научной фантастики. Как сообщает издание Let’s Data Science, последнее обновление приложения ChatGPT для Android и iOS принесло поддержку более 70 языков для микрофонного ввода, включая возможность автоматического определения речи.

Особого внимания заслуживает способность системы распознавать смешанную речь в рамках одной фразы. Для профессионального сообщества, привыкшего к англицизмам и техническому сленгу, это изменение выглядит не просто удобным дополнением, а признанием реальности, в которой чистый язык без примесей становится редкостью. Ранее подобные манипуляции часто ставили алгоритмы в тупик, заставляя их выбирать одну доминирующую локаль.

Инструментарий для разработчиков: семейство GPT-Realtime

Параллельно с обновлением пользовательского интерфейса, OpenAI представила специализированную линейку моделей для интеграции в сторонние сервисы. В начале мая стало известно о выходе GPT-Realtime-2, которая, по мнению экспертов, обладает уровнем рассуждения, сопоставимым с GPT-5, и внушительным контекстным окном в 128K токенов. Это позволяет модели удерживать нить длинных разговоров, не теряя сути происходящего.

В состав новой архитектуры также вошли два узкоспециализированных решения:

GPT-Realtime-Translate: инструмент для мгновенного перевода, поддерживающий свыше 70 входных языков и 13 выходных направлений.
GPT-Realtime-Whisper: оптимизированная версия известного алгоритма для потоковой транскрипции, предназначенная для создания живых субтитров и ведения протоколов встреч.

Разработчикам теперь доступны такие функции, как параллельные вызовы инструментов и слышимые «преамбулы», которые сигнализируют о том, что модель начала обработку запроса. Это важный шаг к снижению когнитивной нагрузки на пользователя во время ожидания ответа, хотя вопрос задержки (latency) в реальных сценариях все еще остается открытым для полевых тестов.

Развертывание таких мощностей требует от инженеров пересмотра архитектуры потоковых конвейеров. Ожидания пользователей по скорости реакции теперь крайне высоки, и гибридная оркестрация между облаком и устройством становится единственным разумным выходом для поддержания плавности интерфейса.

Практическое применение и рыночные перспективы

Интеграция подобных возможностей уже тестируется крупными игроками рынка, такими как Zillow и Priceline. Для бизнеса это означает возможность создания служб поддержки, способных бесшовно переключаться между языками клиента без переподключения к другому оператору. Однако за внешней легкостью скрывается необходимость тщательной предобработки аудиосигнала и борьбы с шумами, что остается «домашним заданием» для команд внедрения.

С технической точки зрения, мы наблюдаем интересную эволюцию: OpenAI не просто улучшает качество распознавания, но и предлагает готовую инфраструктуру для низкозатратной (с точки зрения задержек) интеграции голоса в любой продукт. Остается лишь наблюдать, насколько заявленные возможности справятся с реальным многообразием акцентов и диалектов, которые зачастую оказываются сложнее любых синтетических тестов.

Новости

ChatGPT теперь поддерживает голосовой ввод на более чем 70 языках

Инструментарий для разработчиков: семейство GPT-Realtime

Практическое применение и рыночные перспективы

Еще интереснее

Microsoft выпустил модель Mirage для генерации видео с новой «пространственной памятью»

Открытая модель Kimi K2.7 Code обходит лидеров рынка и доступна за меньшую цену

Модели Latent Context обещают избавить нейросети от тупика, сжимая контекст в 16 раз

Вышла экспериментальная модель DiffusionGemm от Google — она генерирует текст через диффузию

Оставить комментарий