Компания Cohere, специализирующаяся на корпоративном искусственном интеллекте, выпустила свою первую специализированную модель для работы с голосом. Как сообщает TechCrunch, решение под названием Transcribe представляет собой открытую модель автоматического распознавания речи (ASR), оптимизированную для создания заметок и аналитики аудиоданных.
Архитектура Transcribe включает 2 миллиарда параметров, что делает её относительно легкой по современным меркам. По словам представителей компании, такая компактность позволяет запускать модель на потребительских GPU, обеспечивая возможность локального хостинга для организаций, чувствительных к вопросам приватности данных.
Технические характеристики и производительность
На текущий момент система поддерживает 14 языков, включая английский, французский, немецкий, китайский и японский. В ходе внутреннего тестирования и бенчмаркинга на платформе Hugging Face Open ASR Transcribe продемонстрировала средний коэффициент ошибок в словах (WER) на уровне 5,42.
Согласно данным Cohere, этот показатель превосходит результаты таких моделей, как Zoom Scribe v1, IBM Granite 4.0 и ElevenLabs Scribe v2. Кроме того, заявленная скорость обработки данных составляет 525 минут аудио за одну минуту реального времени, что является высоким показателем для данного класса параметров.
Привлечение человеческих экспертов для оценки точности и связности текста показало, что средний коэффициент предпочтения Transcribe перед конкурентами составил 61%. Однако модель продемонстрировала менее уверенные результаты при транскрибации португальского, немецкого и испанского языков, уступив в этих сегментах профильным решениям.
Выпуск Transcribe — это грамотный технический маневр, демонстрирующий эффективность малых моделей в узких задачах. Однако лидерство в бенчмарках не скрывает проблем с мультиязычностью, где лакуны в качестве европейских диалектов выглядят странно для продукта такого уровня. Пока Cohere играет в «открытость», ее реальная стратегия остается привязанной к закрытой экосистеме North, превращая open-source в обычную маркетинговую воронку.
Интеграция и рыночный контекст
Возможность использования Transcribe на данный момент доступна через бесплатный API Cohere, а также на платформе управляемого вывода Model Vault. В ближайшее время компания намерена интегрировать инструмент в свою платформу оркестрации корпоративных агентов North.
Ранее, в начале 2026 года, руководство Cohere сообщало инвесторам о достижении годовой регулярной выручки в размере 240 миллионов долларов. Исполнительный директор компании Эйдан Гомес отмечал, что стартап может в скором времени рассмотреть вариант выхода на публичный рынок (IPO).
Спрос на высокоточные модели распознавания речи стабильно растет на фоне популярности сервисов для диктовки, таких как Granola или Wispr Flow. Если Cohere удастся сохранить баланс между скоростью работы и точностью на локальном оборудовании, Transcribe может занять существенную долю в сегменте корпоративного ПО.
Оставить комментарий