Оглавление

Исследование DataRobot выявило серьезную проблему в использовании языковых моделей для оценки качества ответов: они легко поддаются на уверенные, но ошибочные ответы, что может искажать результаты тестирования на 10-20%.

Проблема доверия к автоматическим оценкам

Когда команда перешла на самоуправляемые opensource-модели для своей RAG-системы, первоначальные результаты казались прорывными. Однако более внимательный анализ показал, что система оценки на основе LLM некорректно оценивала ответы. Например, когда RAG-система не могла найти данные для вычисления финансового показателя, она просто объясняла это отсутствием информации — и LLM-судья давала полный балл за такой ответ, считая, что система правильно идентифицировала отсутствие данных.

Ситуация, когда инструмент оценки сам становится источником ошибок, особенно опасна в ML-разработке — она создает иллюзию прогресса там, где его нет, и может направить разработку по ложному пути.

Типичные ошибки LLM-судей

Исследователи выделили несколько системных проблем:

  • Влияние уверенного тона: Судей обманывал тон сообщений, награждая правдоподобно звучащие объяснения
  • Численная неоднозначность: Является ли ответ 3.9% «достаточно близким» к 3.8%?
  • Семантическая эквивалентность: Можно ли считать «APAC» приемлемой заменой для «Азиатско-Тихоокеанский регион: Индия, Япония, Малайзия, Филиппины, Австралия»?
  • Ошибочные reference-ответы: Иногда сам «эталонный» ответ оказывается неверным

Методология исследования

Для решения проблемы исследователи создали датасет из 807 примеров с человеческой разметкой, доступный на HuggingFace. Каждый пограничный случай обсуждался, были установлены четкие правила оценки. Распределение составило 37.6% неудачных и 62.4% успешных ответов.

Набор данных LLM-судьи от DataRobot с примерами оценок, размеченными людьми
Источник: www.datarobot.com

Для экспериментов использовали opensource-фреймворк syftr с новым JudgeFlow классом, позволяющим систематически тестировать различные конфигурации LLM, температуры и дизайна промптов.

Результаты тестирования

Эксперименты показали неожиданные результаты. Специализированная модель Master-RM, настроенная на избегание «взлома наград», не превзошла базовую модель по точности. Детализированные промпты показали наивысшую точность, но оказались почти в четыре раза дороже по токенам.

Сравнение точности и стоимости для различных промптов и моделей LLM-судей
Источник: www.datarobot.com

Тестирование кластера крупных open-weight моделей (от Qwen, DeepSeek, Google и NVIDIA) с различными стратегиями показало, что консенсус-подход с опросом 3 или 5 моделей не дает преимуществ в точности перед одиночными или случайными судьями.

Результаты оптимизации оценки: сравнение типов судей и промптов
Источник: www.datarobot.com

Все три метода достигли примерно 96% согласия с человеческими оценками. При этом простой промпт в сочетании с мощной моделью вроде Qwen/Qwen2.5-72B-Instruct оказался почти в 20 раз дешевле детализированных промптов, теряя лишь несколько процентных пунктов точности.

Практические выводы

Исследование опровергает распространенное правило «просто используйте gpt-4o-mini». Системный подход предоставляет меню оптимизированных вариантов вместо единого решения по умолчанию:

  • Максимальная точность без regard к стоимости: Консенсус-поток с детализированным промптом и моделями Qwen3-32B, DeepSeek-R1-Distill и Nemotron-Super-49B достигает 96% соответствия человеческим оценкам
  • Бюджетное быстрое тестирование: Одна модель с простым промптом дает ~93% точности при одной пятой стоимости базового gpt-4o-mini

Ключевой вывод: дизайн промптов оказывает наибольшее влияние на качество оценки. Детализированные промпты с явными критериями оценки значительно улучшают соответствие человеческим суждениям.

По материалам DataRobot.