Уникальный датасет для перевода исторических документов с моди-письма

Индийские исследователи создают уникальный датасет из 50 000 слов для перевода исторических документов с моди-письма на современный маратхи, используя древние словари и современные AI-технологии.

Оглавление

Проблема существующих подходов
Новый подход к построению датасета
Ключевые источники данных
Технологическая реализация

По данным Hugging Face, исследовательский форум Indic-scripts предпринимает масштабные усилия по созданию специализированного датасета для машинного перевода документов, написанных моди-письмом — исторической системой письменности, использовавшейся в Махараштре с XIV по XIX век.

Проблема существующих подходов

Традиционные методы перевода, включая разработки IIT Roorkee, оказались неэффективными. Их датасет MoDeTrans содержит всего 2043 предложения с транслитерацией на деванагари, что совершенно недостаточно для качественного обучения AI-моделей.

Образец датасета MoDeTrans с предложениями на моди-письме и транслитерацией деванагари — Источник: huggingface.co

Тестирование модели MoScNet показало 100% неудач при переводе — все результаты были бессвязными и неточными. Это демонстрирует фундаментальную проблему: без репрезентативного датасета, отражающего языковые особенности периода 1400-1900 годов, достичь осмысленного перевода невозможно.

Новый подход к построению датасета

Indic-scripts Research Forum использует принципиально иную стратегию:

Создание структурированного датасета из 50 000 слов
Парное сопоставление слов моди-письма с современным маратхи
Использование исторических словарей и экспертных переводов
Векторное представление данных для последующего поиска

Для перевода исторических текстов приходится обращаться к еще более древним источникам — словарям XVIII-XIX веков. Это напоминает археологическую экспедицию в мир данных, где каждый артефакт-слово требует точной атрибуции и контекстуализации. Современные ИИ-модели, обученные на актуальных корпусах, просто не понимают язык прошлого — им нужны специальные «исторические очки» в виде качественно подобранных датасетов.

Ключевые источники данных

Исследователи используют уникальные исторические словари, включая:

Maharashtra Language Dictionary (1821 год)
Словарь Raghunath Bhaskar Godbole (1870 год)
Historic Shabdakosh Y.N. Kelkar (1962 год)
Современные вычислительные словари с 267 000 терминов

Технологическая реализация

Словарные статьи преобразуются в численные представления и хранятся в векторной базе данных. Это позволяет осуществлять семантический поиск и находить альтернативные значения слов. Такой подход станет основой для будущей языковой модели, специализированной на истории Махараштры.

Структурированные данные из словарей будут использоваться для верификации и упорядочивания неструктурированных исторических документов, поступающих в трех форматах: оригинальное моди-письмо, транслитерированный маратхи и современный маратхи.

По материалам Hugging Face

Новости

Индийские исследователи создают уникальный датасет для перевода исторических документов с моди-письма

Проблема существующих подходов

Новый подход к построению датасета

Ключевые источники данных

Технологическая реализация

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий