Оглавление
Исследователи представили Turk-LettuceDetect — первый набор моделей для обнаружения галлюцинаций, специально разработанный для турецкого языка в системах Retrieval-Augmented Generation (RAG). Проект включает три различные архитектуры и переведенный датасет, что открывает новые возможности для создания надежных ИИ-приложений для морфологически сложных языков.
Проблема галлюцинаций и особенности турецкого языка
Несмотря на революционные возможности больших языковых моделей, их склонность к «галлюцинациям» — генерации правдоподобной, но фактически неверной информации — остается серьезным препятствием для надежного применения. Системы RAG были разработаны для решения этой проблемы путем привязки ответов модели к внешним источникам знаний, но даже они не полностью защищены от галлюцинаций.
Для языков с богатой морфологией, таких как турецкий, задача обнаружения галлюцинаций особенно сложна. Агглютинативная природа языка, где слова образуются путем добавления множества суффиксов, создает дополнительные вызовы для современных алгоритмов.
Архитектура Turk-LettuceDetect
Новый подход основан на фреймворке LettuceDetect и формулирует обнаружение галлюцинаций как задачу классификации на уровне токенов. Каждое слово в сгенерированном ответе помечается как «подтвержденное» или «галлюцинированное» на основе предоставленного контекста.
Исследователи дообучили три различные архитектуры для турецкого языка:
- ModernBERT-base-tr: турецкая специфичная версия ModernBERT с Rotary Position Embeddings (RoPE), способная обрабатывать контексты до 8,192 токенов
- TurkEmbed4STS: модель для создания эмбеддингов, оптимизированная для задач семантического текстового сходства
- EuroBERT: мощная многоязычная модель с мощными кросс-лингвистическими возможностями
Датасет RAGTruth-TR
Для обучения моделей использовался RAGTruth — первый крупномасштабный датасет для оценки галлюцинаций в RAG-системах. Исходный английский датасет содержал 17,790 размеченных примеров для трех различных задач: вопросно-ответных систем, генерации текст из данных и суммаризации.
Датасет был машинно переведен на турецкий с помощью модели google/gemma-3-27b-it с сохранением структуры и позиций тегов, помечающих галлюцинированные участки текста.
Результаты и производительность
Эксперименты показали высокую эффективность разработанных моделей в обнаружении галлюцинаций в турецком тексте. Модель ModernBERT-base-tr показала наилучшие результаты в задачах вопросно-ответных систем с точностью 0.7642, полнотой 0.7536 и F1-мерой 0.7588.
Ирония в том, что пока все восхищаются генеративными способностями ИИ, самые важные разработки происходят в сфере «скучной» проверки фактов. Турция с ее 80+ миллионами носителей и сложной морфологией — идеальный полигон для тестирования границ возможностей NLP. Особенно впечатляет подход с классификацией на уровне токенов — это как поставить детектор лжи на каждое слово, что для агглютинативных языков сродни ювелирной работе.
Все модели и датасет доступны на Hugging Face:
По материалам Hugging Face.
Оставить комментарий