Оглавление
Пока все вокруг создают новые модели автоматического распознавания речи (ASR), выбор подходящей для конкретной задачи может оказаться сложнее, чем подбор сериала на Netflix. По состоянию на 21 ноября 2025 года на Hugging Face доступны 150 моделей Audio-Text-to-Text и 27 тысяч ASR-моделей — настоящий цифровой Вавилон.
Большинство бенчмарков сосредоточены на коротких английских транскрипциях (менее 30 секунд), игнорируя другие важные задачи: мультиязычную производительность и пропускную способность моделей, которые становятся решающими факторами для длинных аудиоформатов вроде совещаний и подкастов.
Обновленный лидерборд ASR
За последние два года Open ASR Leaderboard стал стандартом для сравнения открытых и проприетарных моделей по точности и эффективности. Недавно в лидерборд добавились треки для мультиязычности и транскрипции длинных аудио.
Ключевые выводы из последнего исследования:
- Лучшая точность: Conformer-энкодеры + LLM-декодеры (open-source побеждает)
- Самая высокая скорость: CTC / TDT декодеры
- Мультиязычность: достигается ценой снижения производительности в отдельных языках
- Длинные форматы: проприетарные системы пока лидируют
Анализ 60+ моделей
На текущий момент Open ASR Leaderboard сравнивает более 60 открытых и закрытых моделей от 18 организаций на 11 датасетах. В недавней препринт-статье подробно разбирается техническая настройка и выделяются ключевые тренды в современном ASR.
Conformer + LLM: вершина точности

Источник: huggingface.co
Модели, сочетающие Conformer-энкодеры с декодерами больших языковых моделей (LLM), в настоящее время лидируют по точности английской транскрипции. Например, NVIDIA Canary-Qwen-2.5B, IBM Granite-Speech-3.3-8B и Microsoft Phi-4-Multimodal-Instruct демонстрируют самые низкие показатели word error rate (WER), что подтверждает способность LLM-рассуждений значительно повышать точность ASR.
NVIDIA представила Fast Conformer — версию Conformer с удвоенной скоростью, используемую в их моделях Canary и Parakeet.
Компромисс скорости и точности

Источник: huggingface.co
Несмотря на высокую точность, LLM-декодеры обычно медленнее более простых подходов. В Open ASR Leaderboard эффективность измеряется с помощью inverse real-time factor (RTFx), где большее значение означает лучший результат.
Для еще более быстрого вывода CTC и TDT декодеры обеспечивают в 10–100 раз более высокую пропускную способность, хотя и с несколько более высокими показателями ошибок. Это делает их идеальными для задач реального времени, офлайн-обработки или пакетной транскрипции (совещания, лекции, подкасты).
Мультиязычный вызов

Источник: huggingface.co
OpenAI Whisper Large v3 остается сильным мультиязычным базовым решением, поддерживающим 99 языков. Однако дообученные или дистиллированные варианты вроде Distil-Whisper и CrisperWhisper часто превосходят оригинал в англоязычных задачах, демонстрируя преимущества целевого дообучения.
Фокус на английском обычно снижает мультиязычное покрытие — классический компромисс между специализацией и универсальностью. Аналогично, хотя самообучающиеся системы вроде Meta Massively Multilingual Speech (MMS) и Omnilingual ASR могут поддерживать 1000+ языков, они отстают по точности от языково-специфичных энкодеров.
Помимо мультиязычных бенчмарков, несколько сообщественных лидербордов фокусируются на отдельных языках. Например, Open Universal Arabic ASR Leaderboard сравнивает модели для современного стандартного арабского и региональных диалектов, подчеркивая сложности речевых вариаций и диглоссии. Аналогично, Russian ASR Leaderboard предоставляет растущий хаб для оценки энкодер-декодер и CTC моделей на русскоязычной фонологии и морфологии.
Транскрипция длинных форматов

Источник: huggingface.co
Для длинных аудиоформатов (подкасты, лекции, встречи) проприетарные системы пока превосходят открытые. Это может быть связано с донастройкой под домен, кастомным чанкованием или продакшен-оптимизацией.
Среди открытых моделей OpenAI Whisper Large v3 показывает лучшие результаты. Но по пропускной способности CTC-based Conformers выигрывают: например, NVIDIA Parakeet CTC 1.1B достигает RTFx 2793.75 против 68.56 у Whisper Large v3 при умеренном ухудшении WER (6.68 и 6.43 соответственно).
Компромисс? Parakeet работает только с английским, снова напоминая нам о мультиязычном и специализационном компромиссе.
Индустрия ASR демонстрирует классическую дилемму: либо специализация на одном языке с максимальной точностью, либо универсальность с приемлемым качеством. Особенно интересно наблюдать, как открытые модели постепенно догоняют проприетарные решения в длинных форматах — области, где закрытые системы традиционно доминировали благодаря оптимизации под конкретные бизнес-кейсы. Скорость развития open-source решений в ASR впечатляет: еще пару лет назад Whisper был революцией, а сегодня уже есть десятки его улучшенных версий.
Поскольку ASR развивается стремительными темпами, сообщество продолжает работать над новыми архитектурами, повышающими производительность и эффективность. Open ASR Leaderboard служит прозрачным, сообщественным бенчмарком для всей отрасли и ориентиром для других лидербордов.
Сообщает Hugging Face.
Оставить комментарий