Оглавление

Команда Fundamental AI Research (FAIR) компании Meta* представила Omnilingual ASR — систему автоматического распознавания речи, способную транскрибировать разговорный язык на более чем 1600 языках.

До сих пор большинство инструментов распознавания речи фокусировались на нескольких сотнях хорошо представленных языков с большим количеством транскрибированного аудио. Это оставляло тысячи языков — из более чем 7000 существующих в мире — практически без поддержки со стороны искусственного интеллекта.

Omnilingual ASR создана для решения этой проблемы. Meta* сообщает, что 500 из 1600 поддерживаемых языков ранее никогда не охватывались никакой системой ИИ. С этим релизом FAIR рассматривает Omnilingual ASR как шаг к созданию «универсальной системы транскрипции», которая может помочь разрушить глобальные языковые барьеры.

Точность и производительность системы

Точность модели зависит от доступных обучающих данных. Согласно данным Meta*, Omnilingual ASR обеспечивает коэффициент ошибок по символам ниже 10 для 78 процентов из 1600 протестированных языков. Для языков с как минимум десятью часами обучающего аудио 95 процентов достигают этого показателя или лучше. Даже для «малоресурсных» языков с менее чем десятью часами аудио 36 процентов показывают результат ниже порога в 10 коэффициента ошибок по символам.

Для поддержки дальнейших исследований и практического использования Meta* также выпустила Omnilingual ASR Corpus — большой набор данных транскрибированной речи на 350 недостаточно представленных языках. Эти данные, доступные под лицензией Creative Commons (CC-BY), предназначены для помощи разработчикам и исследователям в создании или адаптации моделей распознавания речи для конкретных локальных потребностей.

Масштабирование на новые языки с помощью обучения в контексте

Ключевой особенностью Omnilingual ASR является опция «Bring Your Own Language», использующая обучение в контексте. Адаптируя технику из больших языковых моделей, пользователи могут добавлять новые языки, предоставляя несколько парных образцов аудио и текста. Система обучается непосредственно на этих примерах, поэтому нет необходимости в переобучении или значительных вычислительных ресурсах.

Meta* утверждает, что этот подход теоретически может расширить Omnilingual ASR до более чем 5400 языков — далеко за пределы текущих отраслевых стандартов. Хотя качество распознавания для минимально поддерживаемых языков пока не соответствует полностью обученным системам, это обеспечивает практическое распознавание речи для сообществ, которые ранее не имели доступа к таким технологиям.

Технически впечатляет, но возникает вопрос: не является ли это очередной попыткой Meta* застолбить территории в развивающихся рынках под видом благотворительности? Открытый исходный код — отличный ход, но реальная ценность будет определяться тем, насколько система действительно полезна для носителей редких языков, а не просто добавляет галочку в список достижений гиганта.

Открытый исходный код и варианты моделей

Meta* выпускает Omnilingual ASR как открытый исходный код под лицензией Apache 2.0, что позволяет исследователям и разработчикам свободно использовать, модифицировать и создавать производные модели, включая коммерческое использование. Наборы данных доступны под лицензией CC-BY.

Семейство Omnilingual ASR включает модели от облегченной версии с 300 миллионами параметров для маломощных устройств до версии с 7 миллиардами параметров для «топовой точности». Все модели построены на базе фреймворка fairseq2 от FAIR на основе PyTorch, и демо доступно здесь.

По материалам The Decoder.

* Meta (признана экстремистской и запрещена в РФ)