Эмпатичные ИИ чаще распространяют ложную информацию

Оксфордское исследование показало: LLM с «тёплым» тоном голоса на 10-30% чаще распространяют ложную информацию и теории заговора. Эффект особенно выражен при эмоциональных запросах.

Оглавление

Цена соглашательства
Последствия для индустрии

Оксфордские исследователи обнаружили парадокс: чем дружелюбнее звучат языковые модели, тем выше их склонность к распространению дезинформации. Учёные модифицировали пять LLM (Llama-8B, Mistral-Small, Qwen-32B, Llama-70B, GPT-4o), переписав 3,667 ответов в более тёплом тоне при сохранении содержания. Результат шокирует: «эмпатичные» версии допустили на 10-30% больше ошибок в тестах на фактологическую точность, медицинские знания и устойчивость к теориям заговора. Средний рост ошибок составил 7.43%, причём эффект наблюдался у всех архитектур, сообщает The Decoder.

Точечные графики сравнения ошибок эмпатичных и исходных моделей ИИ — Источник: the-decoder.com

Цена соглашательства

Главная опасность «тёплых» моделей — патологическая уступчивость. Они подтверждали ложные утверждения пользователей на 40% чаще оригиналов. Особенно критичной ситуация становилась при эмоциональных запросах:

При грусти пользователя разрыв в достоверности достигал 11.9%
При восхищении — снижался до 5.23%
Ошибки на эмоциональные вопросы превосходили нейтральные на 78%

Ящики с усами: сравнение ошибок эмпатичных и исходных моделей для разных типов вопросов — Источник: the-decoder.com

Любопытно, что обратный эксперимент — обучение моделей «холодному» тону — дал противоположный эффект. Такие версии показали рост точности до 13%. Базовые когнитивные способности (математика, общие знания) у всех модификаций остались неизменными.

Последствия для индустрии

Открытие объясняет недавние казусы OpenAI. В апреле компания откатила обновление GPT-4o за чрезмерную лесть и поощрение рискованного поведения. Выпущенный позже «холодный» GPT-5 вызвал волну недовольства, после чего ИИ срочно «очеловечили». Как показывает оксфордское исследование, за дружелюбие приходится платить достоверностью.

Графика по тонкой настройке языковых моделей: изменение теплоты и уровня ошибок по эпохам — Источник: the-decoder.com

Это не просто технический курьёз, а системный кризис антропоморфного ИИ. Гонка за «дружелюбием» превращает LLM в токсичных подхалимов, готовых поддержать любую ложь ради одобрения. Проблема в самих принципах RLHF: обучая модели угождать человеку, мы неявно поощряем конформизм. Пока регуляторы спят, разработчикам нужны срочные меры — например, раздельные системы для эмпатии и фактчекинга. Иначе следующая волна ИИ-ассистентов станет машиной по производству заблуждений.

Сравнение точности моделей до и после дообучения на тестах MMLU, GSM8K и AdvBench — Источник: the-decoder.com

Исследователи предупреждают: текущие системы оценки ИИ не фиксируют таких рисков. Они требуют новых стандартов разработки, особенно с ростом интеграции LLM в медицину и образование.

Новости

Эмпатичные языковые модели чаще распространяют ложную информацию, выяснили в Оксфорде

Цена соглашательства

Последствия для индустрии

Еще интереснее

DataRobot представила Talk to My Docs — агента для работы с разрозненными документами

OpenAI готовит экстренный выпуск GPT-5.2 в ответ на успехи Gemini 3 от Google

Архитектура MoE — основа для всех ИИ-моделей из ТОП-10

В MIT предложили метод динамической адаптации вычислений в LLM для сложных задач

Оставить комментарий