Оглавление
Команда исследователей представила TinyLettuce — подход к эффективному обнаружению галлюцинаций в RAG-системах с помощью компактных энкодеров размером всего 17-68 миллионов параметров. Эти модели показывают лучшую точность, чем LLM с миллиардами параметров, при этом работая в реальном времени на CPU.
Ключевые преимущества
- TinyLettuce-17M (17M параметров) достигает 90.87% F1 на синтетических тестовых данных, превосходя GPT-5-mini (83.69%), GPT-OSS-120B (83.38%) и Qwen3-235B (79.84%)
- Работает в реальном времени на CPU с низкой задержкой и высокой пропускной способностью
- Генерация синтетических данных значительно дешевле ручной разметки
- Полный сквозной пайплайн для обучения доменно-специфичных моделей
- Все модели и код имеют лицензию MIT и готовы к промышленному развертыванию
Быстрый старт
Установка выполняется одной командой:
pip install lettucedetect
Обнаружение галлюцинаций в медицинском контексте:
from lettucedetect.models.inference import HallucinationDetector detector = HallucinationDetector( method="transformer", model_path="KRLabsOrg/tinylettuce-ettin-17m-en-v1" ) spans = detector.predict( context=["Ibuprofen is an NSAID that reduces inflammation and pain. The typical adult dose is 400-600mg every 6-8 hours, not exceeding 2400mg daily."], question="What is the maximum daily dose of ibuprofen?", answer="The maximum daily dose of ibuprofen for adults is 3200mg.", output_format="spans", ) print(spans) # Output: [{"start": 51, "end": 57, "text": "3200mg"}]
Мотивация разработки
Современные подходы к обнаружению галлюцинаций сталкиваются с фундаментальными компромиссами между точностью, стоимостью и скоростью. Промпт-детекторы на базе LLM API дороги и медленны, дообученные LLM требуют огромных ресурсов, а энкодер-модели исторически ограничены коротким контекстом.
Ирония ситуации в том, что 17-миллионная модель обходит 235-миллиардные монстры не за счет архитектурных чудес, а благодаря правильно подобранным синтетическим данным. Это очередное подтверждение, что в машинном обучении данные часто важнее параметров — особенно когда речь идет о специализированных задачах вроде детекции ошибок.
Архитектурный подход
Ключевая идея TinyLettuce: специализированные тренировочные данные могут быть важнее количества параметров. Подход включает четыре этапа:
- Генерация синтетических данных с помощью Генератора галлюцинаций — без ручной разметки
- Обучение компактных Ettin энкодеров (17M-68M параметров) на этих данных
- Деплой на CPU для инференса в реальном времени
- Масштабирование без GPU-кластеров и API-лимитов
Семейство моделей TinyLettuce
Модели построены на базе Ettin энкодера от LightOn — легковесного эффективного трансформера, оптимизированного для классификационных задач.
- Ettin-17M — 17 миллионов параметров, 8K токенов контекста (для развертывания на периферийных устройствах)
- Ettin-32M — 32 миллиона параметров, 8K токенов (очень быстрый с хорошей точностью)
- Ettin-68M — 68 миллионов параметров, 8K токенов (высокая точность при сохранении скорости)
Все ресурсы проекта доступны на GitHub, модели — в Hugging Face коллекции, а полные примеры — тут.
По материалам Hugging Face
Оставить комментарий