Оглавление

Команда исследователей представила TinyLettuce — подход к эффективному обнаружению галлюцинаций в RAG-системах с помощью компактных энкодеров размером всего 17-68 миллионов параметров. Эти модели показывают лучшую точность, чем LLM с миллиардами параметров, при этом работая в реальном времени на CPU.

Ключевые преимущества

  • TinyLettuce-17M (17M параметров) достигает 90.87% F1 на синтетических тестовых данных, превосходя GPT-5-mini (83.69%), GPT-OSS-120B (83.38%) и Qwen3-235B (79.84%)
  • Работает в реальном времени на CPU с низкой задержкой и высокой пропускной способностью
  • Генерация синтетических данных значительно дешевле ручной разметки
  • Полный сквозной пайплайн для обучения доменно-специфичных моделей
  • Все модели и код имеют лицензию MIT и готовы к промышленному развертыванию

Быстрый старт

Установка выполняется одной командой:

pip install lettucedetect

Обнаружение галлюцинаций в медицинском контексте:

from lettucedetect.models.inference import HallucinationDetector

detector = HallucinationDetector(
    method="transformer",
    model_path="KRLabsOrg/tinylettuce-ettin-17m-en-v1"
)

spans = detector.predict(
    context=["Ibuprofen is an NSAID that reduces inflammation and pain. The typical adult dose is 400-600mg every 6-8 hours, not exceeding 2400mg daily."],
    question="What is the maximum daily dose of ibuprofen?",
    answer="The maximum daily dose of ibuprofen for adults is 3200mg.",
    output_format="spans",
)
print(spans)
# Output: [{"start": 51, "end": 57, "text": "3200mg"}]

Мотивация разработки

Современные подходы к обнаружению галлюцинаций сталкиваются с фундаментальными компромиссами между точностью, стоимостью и скоростью. Промпт-детекторы на базе LLM API дороги и медленны, дообученные LLM требуют огромных ресурсов, а энкодер-модели исторически ограничены коротким контекстом.

Ирония ситуации в том, что 17-миллионная модель обходит 235-миллиардные монстры не за счет архитектурных чудес, а благодаря правильно подобранным синтетическим данным. Это очередное подтверждение, что в машинном обучении данные часто важнее параметров — особенно когда речь идет о специализированных задачах вроде детекции ошибок.

Архитектурный подход

Ключевая идея TinyLettuce: специализированные тренировочные данные могут быть важнее количества параметров. Подход включает четыре этапа:

  1. Генерация синтетических данных с помощью Генератора галлюцинаций — без ручной разметки
  2. Обучение компактных Ettin энкодеров (17M-68M параметров) на этих данных
  3. Деплой на CPU для инференса в реальном времени
  4. Масштабирование без GPU-кластеров и API-лимитов

Семейство моделей TinyLettuce

Модели построены на базе Ettin энкодера от LightOn — легковесного эффективного трансформера, оптимизированного для классификационных задач.

  • Ettin-17M — 17 миллионов параметров, 8K токенов контекста (для развертывания на периферийных устройствах)
  • Ettin-32M — 32 миллиона параметров, 8K токенов (очень быстрый с хорошей точностью)
  • Ettin-68M — 68 миллионов параметров, 8K токенов (высокая точность при сохранении скорости)

Все ресурсы проекта доступны на GitHub, модели — в Hugging Face коллекции, а полные примеры — тут.

По материалам Hugging Face