Оглавление
Команда OpenAI опубликовала исследование, которое меняет взгляд на одну из самых острых проблем современных языковых моделей — склонность к выдаче ложной информации. Согласно новой работе, корень проблемы лежит в системе оценки, которая поощряет угадывание вместо признания неопределённости.
Что такое галлюцинации и почему они возникают
Галлюцинации — это правдоподобные, но ложные утверждения, которые модели генерируют с высокой уверенностью. Как отмечают исследователи, даже современные модели вроде GPT‑5, где эта проблема значительно уменьшена, всё ещё подвержены таким ошибкам.
Классический пример: при запросе о дне рождения исследователя Адама Таумана Калаи модель выдала три разные даты — и все ошибочные. Аналогично с названием его диссертации — три варианта, ни одного правильного.
Ирония в том, что индустрия годами билась над точностью, не осознавая, что сама система оценок толкает модели к рискованным догадкам. Вместо того чтобы учить ИИ говорить «не знаю», мы награждаем его за удачные предположения — как на экзамене, где угадавший получает балл, а честный студент — ноль.
Проблема современных метрик оценки
Основная проблема, по мнению OpenAI, кроется в доминировании метрик точности (accuracy), которые учитывают только процент правильных ответов. Это создаёт систему стимулов, где:
- Угадывание повышает шансы на высокий балл
- Признание неопределённости гарантирует нулевой результат
- Ошибки наказываются недостаточно строго
На примере теста SimpleQA видна разница в подходах:
| Метрика | gpt-5-thinking-mini | OpenAI o4-mini |
|---|---|---|
| Процент воздержаний | 52% | 1% |
| Точность | 22% | 24% |
| Ошибки | 26% | 75% |
Хотя более старая модель o4-mini показывает чуть лучшую точность, её уровень ошибок втрое выше — именно потому, что она реже признаёт незнание.
Технические корни проблемы
Галлюцинации возникают на этапе предобучения, когда модель учится предсказывать следующее слово в тексте. Ключевая особенность: в обучающих данных нет пометок «верно/неверно» — только примеры грамотной речи.
Это создаёт фундаментальную сложность: модель не видит негативных примеров и должна выводить распределение истинности из паттернов. Факты с низкой частотностью (вроде дней рождения) невозможно надёжно предсказать на основе одних лишь языковых шаблонов.
Пути решения
OpenAI предлагает пересмотреть систему оценок:
- Жёстче штрафовать уверенные ошибки
- Давать частичные баллы за корректное признание неопределённости
- Изменять основные бенчмарки, а не добавлять отдельные «осознанные» тесты
Как отмечается в Model Spec компании, лучше указать на неуверенность или запросить уточнения, чем предоставлять недостоверную информацию.
По материалам OpenAI.
Оставить комментарий