Оглавление

Кельтские языки — включая корнский, ирландский, шотландский гэльский и валлийский — являются древнейшими живыми языками Великобритании. Чтобы расширить возможности их носителей, инициатива UK-LLM по созданию суверенного искусственного интеллекта разрабатывает модель на основе NVIDIA Nemotron, способную рассуждать как на английском, так и на валлийском языке, на котором сегодня говорят около 850 тысяч человек в Уэльсе.

Технология для сохранения языкового наследия

Обеспечение качественного искусственного интеллекта для валлийского языка поддержит предоставление государственных услуг, включая здравоохранение, образование и юридические ресурсы на родном языке.

«Я хочу, чтобы каждый уголок Великобритании мог использовать преимущества искусственного интеллекта. Разрешая ИИ рассуждать на валлийском, мы гарантируем, что государственные услуги — от здравоохранения до образования — доступны каждому на языке, на котором они живут», — заявил премьер-министр Великобритании Кир Стармер.

Проект UK-LLM, основанный в 2023 году как BritLLM под руководством University College London, ранее выпустил две модели для языков Великобритании. Новая модель для валлийского языка, разработанная в сотрудничестве с Университетом Бангора в Уэльсе и NVIDIA, соответствует усилиям правительства Уэльса по повышению активного использования языка с целью достижения миллиона говорящих к 2050 году — инициатива, известная как Cymraeg 2050.

Британский облачный провайдер искусственного интеллекта Nscale сделает новую модель доступной для разработчиков через свой программный интерфейс.

Создание ИИ-моделей для миноритарных языков — это не просто техническая задача, а культурно-политический акт. Интересно наблюдать, как технологический гигант NVIDIA участвует в проектах национального суверенитета, которые обычно ассоциируются с государственными инициативами. Это показывает, что современный ИИ становится инструментом не только бизнеса, но и культурного сохранения.

Методология разработки для языков с ограниченными данными

Новая модель для валлийского языка основана на NVIDIA Nemotron, семействе моделей с открытым исходным кодом, которое включает открытые веса, наборы данных и рецепты. Команда разработчиков UK-LLM использовала модель Llama Nemotron Super с 49 миллиардами параметров и модель Nemotron Nano с 9 миллиардами параметров, дообучив их на данных валлийского языка.

По сравнению с такими языками, как английский или испанский, для обучения ИИ доступно меньше исходных данных на валлийском. Поэтому для создания достаточно большого набора данных для обучения команда использовала микросервисы NVIDIA NIM для gpt-oss-120b и DeepSeek-R1 для перевода открытых наборов данных NVIDIA Nemotron с более чем 30 миллионами записей с английского на валлийский.

Они использовали кластер GPU через платформу NVIDIA DGX Cloud Lepton и задействуют сотни суперчипов NVIDIA GH200 Grace Hopper на Isambard-AI — самом мощном суперкомпьютере Великобритании, поддержанном инвестициями правительства в размере 225 миллионов фунтов стерлингов и расположенном в Бристольском университете — для ускорения своих задач по переводу и обучению.

Лингвистическая экспертиза и культурные нюансы

Университет Бангора, расположенный в Гуинете — округе с самым высоким процентом говорящих на валлийском — поддерживает разработку новой модели лингвистической и культурной экспертизой.

Валлийский перевод: «Цель — обеспечить, чтобы валлийский оставался живым, дышащим языком, который продолжает развиваться со временем». — Груффудд Прис, Университет Бангора

Прис из университетского центра валлийского языка привносит в сотрудничество около двух десятилетий опыта работы с языковыми технологиями для валлийского. Он и его команда помогают проверять точность машинного перевода обучающих данных и данных оценки, переведенных вручную, а также оценивать, как модель обрабатывает нюансы валлийского языка, с которыми ИИ обычно борется — например, способ, которым согласные в начале валлийских слов меняются в зависимости от соседних слов.

Ожидается, что модель, а также наборы данных для обучения и оценки на валлийском языке будут доступны для использования в корпоративном и государственном секторах, поддерживая дополнительные исследования, обучение моделей и разработку приложений.

«Одно дело — иметь эти возможности ИИ на валлийском, но другое — сделать их открытыми и доступными для всех», — сказал Прис. «Это тонкое различие может определить, будет ли эта технология использоваться или нет».

По материалам NVIDIA Blog.