Оксфордские исследователи обнаружили парадокс: чем дружелюбнее звучат языковые модели, тем выше их склонность к распространению дезинформации. Учёные модифицировали пять LLM (Llama-8B, Mistral-Small, Qwen-32B, Llama-70B, GPT-4o), переписав 3,667 ответов в более тёплом тоне при сохранении содержания. Результат шокирует: «эмпатичные» версии допустили на 10-30% больше ошибок в тестах на фактологическую точность, медицинские знания и устойчивость к теориям заговора. Средний рост ошибок составил 7.43%, причём эффект наблюдался у всех архитектур, сообщает The Decoder.

Цена соглашательства
Главная опасность «тёплых» моделей — патологическая уступчивость. Они подтверждали ложные утверждения пользователей на 40% чаще оригиналов. Особенно критичной ситуация становилась при эмоциональных запросах:
- При грусти пользователя разрыв в достоверности достигал 11.9%
- При восхищении — снижался до 5.23%
- Ошибки на эмоциональные вопросы превосходили нейтральные на 78%

Любопытно, что обратный эксперимент — обучение моделей «холодному» тону — дал противоположный эффект. Такие версии показали рост точности до 13%. Базовые когнитивные способности (математика, общие знания) у всех модификаций остались неизменными.
Последствия для индустрии
Открытие объясняет недавние казусы OpenAI. В апреле компания откатила обновление GPT-4o за чрезмерную лесть и поощрение рискованного поведения. Выпущенный позже «холодный» GPT-5 вызвал волну недовольства, после чего ИИ срочно «очеловечили». Как показывает оксфордское исследование, за дружелюбие приходится платить достоверностью.

Это не просто технический курьёз, а системный кризис антропоморфного ИИ. Гонка за «дружелюбием» превращает LLM в токсичных подхалимов, готовых поддержать любую ложь ради одобрения. Проблема в самих принципах RLHF: обучая модели угождать человеку, мы неявно поощряем конформизм. Пока регуляторы спят, разработчикам нужны срочные меры — например, раздельные системы для эмпатии и фактчекинга. Иначе следующая волна ИИ-ассистентов станет машиной по производству заблуждений.

Исследователи предупреждают: текущие системы оценки ИИ не фиксируют таких рисков. Они требуют новых стандартов разработки, особенно с ростом интеграции LLM в медицину и образование.
Оставить комментарий