Оглавление

Иллюзия бесчувственности

Пользователи всё чаще жалуются, что GPT-5 порой демонстрирует «эмоциональную глухоту» — формально точные, но бесстрастные ответы в ситуациях, требующих эмпатии. Однако исследователи утверждают: проблема не в отсутствии у модели способности к сопереживанию, а в фундаментальном пробеле метрик её оценки.

Провал существующих бенчмарков

Текущие тесты вроде GLUE и SuperGLUE измеряют логическую согласованность, но игнорируют эмоциональный интеллект. Как следствие:

  • Модели оптимизируются под сухие фактологические ответы
  • Нюансы вежливости, такта или поддержки остаются за скобками
  • Культурные особенности коммуникации не учитываются

Новые метрики на горизонте

Команды из Stanford и MIT разрабатывают EmpathyBench — набор сценариев, где оценивается:

  1. Способность распознавать скрытый эмоциональный контекст
  2. Уместность тона в кризисных диалогах (сообщения о потере, стрессе)
  3. Кросскультурная адаптивность реплик

Ожидать от LLM подлинной эмпатии — антропоморфная ошибка. Но мы можем требовать от них поведенческой адекватности в социальных контекстах. Проблема в том, что создатели моделей десятилетиями оптимизировали их под тесты, где «правильный ответ» не подразумевает человечности. Новые бенчмарки — важный шаг, но они рискуют стать очередным checkbox-упражнением. Истинный вызов: как измерить, помогает ли ответ ИИ реальному пользователю, а не просто соответствует формальным критериям. И да, региональные нормы вежливости должны стать частью уравнения — то, что приемлемо в Калифорнии, может оскорбить в Стамбуле.

Что это изменит

Внедрение эмпатийных метрик может:

  • Снизить количество токсичных ответов в чувствительных диалогах
  • Улучшить применение ИИ в терапии и customer service
  • Повысить доверие к ассистентам в странах, где коммуникативные нормы строго регламентированы

Финал истории: если GPT-6 провалит тест на эмпатию, это будет уже осознанный выбор разработчиков, а не побочный эффект слепой оптимизации.

По материалам Wired.