Оглавление

Исследователи представили Turk-LettuceDetect — первый набор моделей для обнаружения галлюцинаций, специально разработанный для турецкого языка в системах Retrieval-Augmented Generation (RAG). Проект включает три различные архитектуры и переведенный датасет, что открывает новые возможности для создания надежных ИИ-приложений для морфологически сложных языков.

Проблема галлюцинаций и особенности турецкого языка

Несмотря на революционные возможности больших языковых моделей, их склонность к «галлюцинациям» — генерации правдоподобной, но фактически неверной информации — остается серьезным препятствием для надежного применения. Системы RAG были разработаны для решения этой проблемы путем привязки ответов модели к внешним источникам знаний, но даже они не полностью защищены от галлюцинаций.

Для языков с богатой морфологией, таких как турецкий, задача обнаружения галлюцинаций особенно сложна. Агглютинативная природа языка, где слова образуются путем добавления множества суффиксов, создает дополнительные вызовы для современных алгоритмов.

Архитектура Turk-LettuceDetect

Новый подход основан на фреймворке LettuceDetect и формулирует обнаружение галлюцинаций как задачу классификации на уровне токенов. Каждое слово в сгенерированном ответе помечается как «подтвержденное» или «галлюцинированное» на основе предоставленного контекста.

Исследователи дообучили три различные архитектуры для турецкого языка:

  • ModernBERT-base-tr: турецкая специфичная версия ModernBERT с Rotary Position Embeddings (RoPE), способная обрабатывать контексты до 8,192 токенов
  • TurkEmbed4STS: модель для создания эмбеддингов, оптимизированная для задач семантического текстового сходства
  • EuroBERT: мощная многоязычная модель с мощными кросс-лингвистическими возможностями

Датасет RAGTruth-TR

Для обучения моделей использовался RAGTruth — первый крупномасштабный датасет для оценки галлюцинаций в RAG-системах. Исходный английский датасет содержал 17,790 размеченных примеров для трех различных задач: вопросно-ответных систем, генерации текст из данных и суммаризации.

Датасет был машинно переведен на турецкий с помощью модели google/gemma-3-27b-it с сохранением структуры и позиций тегов, помечающих галлюцинированные участки текста.

Результаты и производительность

Эксперименты показали высокую эффективность разработанных моделей в обнаружении галлюцинаций в турецком тексте. Модель ModernBERT-base-tr показала наилучшие результаты в задачах вопросно-ответных систем с точностью 0.7642, полнотой 0.7536 и F1-мерой 0.7588.

Ирония в том, что пока все восхищаются генеративными способностями ИИ, самые важные разработки происходят в сфере «скучной» проверки фактов. Турция с ее 80+ миллионами носителей и сложной морфологией — идеальный полигон для тестирования границ возможностей NLP. Особенно впечатляет подход с классификацией на уровне токенов — это как поставить детектор лжи на каждое слово, что для агглютинативных языков сродни ювелирной работе.

Все модели и датасет доступны на Hugging Face:

По материалам Hugging Face.