Оглавление

Команда OpenAI опубликовала исследование, которое меняет взгляд на одну из самых острых проблем современных языковых моделей — склонность к выдаче ложной информации. Согласно новой работе, корень проблемы лежит в системе оценки, которая поощряет угадывание вместо признания неопределённости.

Что такое галлюцинации и почему они возникают

Галлюцинации — это правдоподобные, но ложные утверждения, которые модели генерируют с высокой уверенностью. Как отмечают исследователи, даже современные модели вроде GPT‑5, где эта проблема значительно уменьшена, всё ещё подвержены таким ошибкам.

Классический пример: при запросе о дне рождения исследователя Адама Таумана Калаи модель выдала три разные даты — и все ошибочные. Аналогично с названием его диссертации — три варианта, ни одного правильного.

Ирония в том, что индустрия годами билась над точностью, не осознавая, что сама система оценок толкает модели к рискованным догадкам. Вместо того чтобы учить ИИ говорить «не знаю», мы награждаем его за удачные предположения — как на экзамене, где угадавший получает балл, а честный студент — ноль.

Проблема современных метрик оценки

Основная проблема, по мнению OpenAI, кроется в доминировании метрик точности (accuracy), которые учитывают только процент правильных ответов. Это создаёт систему стимулов, где:

  • Угадывание повышает шансы на высокий балл
  • Признание неопределённости гарантирует нулевой результат
  • Ошибки наказываются недостаточно строго

На примере теста SimpleQA видна разница в подходах:

Метрика gpt-5-thinking-mini OpenAI o4-mini
Процент воздержаний 52% 1%
Точность 22% 24%
Ошибки 26% 75%

Хотя более старая модель o4-mini показывает чуть лучшую точность, её уровень ошибок втрое выше — именно потому, что она реже признаёт незнание.

Технические корни проблемы

Галлюцинации возникают на этапе предобучения, когда модель учится предсказывать следующее слово в тексте. Ключевая особенность: в обучающих данных нет пометок «верно/неверно» — только примеры грамотной речи.

Это создаёт фундаментальную сложность: модель не видит негативных примеров и должна выводить распределение истинности из паттернов. Факты с низкой частотностью (вроде дней рождения) невозможно надёжно предсказать на основе одних лишь языковых шаблонов.

Пути решения

OpenAI предлагает пересмотреть систему оценок:

  1. Жёстче штрафовать уверенные ошибки
  2. Давать частичные баллы за корректное признание неопределённости
  3. Изменять основные бенчмарки, а не добавлять отдельные «осознанные» тесты

Как отмечается в Model Spec компании, лучше указать на неуверенность или запросить уточнения, чем предоставлять недостоверную информацию.

По материалам OpenAI.