Оглавление

Из 7000 языков мира лишь крошечная доля поддерживается ИИ-моделями. NVIDIA решает эту проблему, выпустив открытый датасет Granary и две нейросетевые модели для распознавания и перевода речи, охватывающие 25 европейских языков — включая редкие вроде мальтийского и эстонского. По сообщению NVIDIA Blog, инструменты позволят создавать мультиязычные чат-боты, голосовых агентов и сервисы перевода в реальном времени.

Компоненты экосистемы

  • Granary — открытый корпус из 1 млн часов аудио: 650 тыс. часов для распознавания речи и 350 тыс. часов для перевода.
  • Canary-1b-v2 — миллиардная модель для транскрипции и перевода между английским и 24 языками, лидирующая по точности на Hugging Face.
  • Parakeet-tdt-0.6b-v3 — 600-миллионная модель для транскрипции в реальном времени с рекордной производительностью.

Инновации в обработке данных

Granary создан совместно с учёными из Carnegie Mellon University и Fondazione Bruno Kessler. Вместо ручной разметки использован автоматизированный конвейер NeMo Speech Data Processor, преобразующий неразмеченное аудио в структурированные данные. Это вдвое сократило объём данных для достижения целевой точности распознавания речи (ASR) и перевода (AST) по сравнению с аналогами.

Специализация моделей

Canary оптимизирована для точности: при размере в 3 раза меньше конкурентов она работает до 10x быстрее. Parakeet фокусируется на скорости, обрабатывая 24-минутные аудиофрагменты за один проход. Обе модели поддерживают автоматическое определение языка, пунктуацию и временные метки.

Скриншот интерфейса демо-версии Canary
Источник: blogs.nvidia.com

Для очистки данных использован NeMo Curator, отфильтровавший синтетические образцы. Исходный код конвейера, модели и датасет доступны на Hugging Face, а исследование представлено на конференции Interspeech.

Это не просто технический релиз — шаг к лингвистической инклюзивности. Автоматизация обработки аудио снижает барьер для поддержки редких языков, где ручная разметка экономически невозможна. Однако 25 языков против 7000 — напоминание, что ИИ всё ещё «многоязычен» лишь условно. Сильная сторона — практичность: Parakeet и Canary покрывают реальные сценарии от колл-центров до переводчиков. В регионах с доминированием глобальных платформ такие инструменты могут стать основой для локальных сервисов.