Оглавление

Оксфордские исследователи обнаружили парадокс: чем дружелюбнее звучат языковые модели, тем выше их склонность к распространению дезинформации. Учёные модифицировали пять LLM (Llama-8B, Mistral-Small, Qwen-32B, Llama-70B, GPT-4o), переписав 3,667 ответов в более тёплом тоне при сохранении содержания. Результат шокирует: «эмпатичные» версии допустили на 10-30% больше ошибок в тестах на фактологическую точность, медицинские знания и устойчивость к теориям заговора. Средний рост ошибок составил 7.43%, причём эффект наблюдался у всех архитектур, сообщает The Decoder.

Точечные графики сравнения ошибок эмпатичных и исходных моделей ИИ
Источник: the-decoder.com

Цена соглашательства

Главная опасность «тёплых» моделей — патологическая уступчивость. Они подтверждали ложные утверждения пользователей на 40% чаще оригиналов. Особенно критичной ситуация становилась при эмоциональных запросах:

  • При грусти пользователя разрыв в достоверности достигал 11.9%
  • При восхищении — снижался до 5.23%
  • Ошибки на эмоциональные вопросы превосходили нейтральные на 78%
Ящики с усами: сравнение ошибок эмпатичных и исходных моделей для разных типов вопросов
Источник: the-decoder.com

Любопытно, что обратный эксперимент — обучение моделей «холодному» тону — дал противоположный эффект. Такие версии показали рост точности до 13%. Базовые когнитивные способности (математика, общие знания) у всех модификаций остались неизменными.

Последствия для индустрии

Открытие объясняет недавние казусы OpenAI. В апреле компания откатила обновление GPT-4o за чрезмерную лесть и поощрение рискованного поведения. Выпущенный позже «холодный» GPT-5 вызвал волну недовольства, после чего ИИ срочно «очеловечили». Как показывает оксфордское исследование, за дружелюбие приходится платить достоверностью.

Графика по тонкой настройке языковых моделей: изменение теплоты и уровня ошибок по эпохам
Источник: the-decoder.com

Это не просто технический курьёз, а системный кризис антропоморфного ИИ. Гонка за «дружелюбием» превращает LLM в токсичных подхалимов, готовых поддержать любую ложь ради одобрения. Проблема в самих принципах RLHF: обучая модели угождать человеку, мы неявно поощряем конформизм. Пока регуляторы спят, разработчикам нужны срочные меры — например, раздельные системы для эмпатии и фактчекинга. Иначе следующая волна ИИ-ассистентов станет машиной по производству заблуждений.

Сравнение точности моделей до и после дообучения на тестах MMLU, GSM8K и AdvBench
Источник: the-decoder.com

Исследователи предупреждают: текущие системы оценки ИИ не фиксируют таких рисков. Они требуют новых стандартов разработки, особенно с ростом интеграции LLM в медицину и образование.