Оглавление
Иллюзия бесчувственности
Пользователи всё чаще жалуются, что GPT-5 порой демонстрирует «эмоциональную глухоту» — формально точные, но бесстрастные ответы в ситуациях, требующих эмпатии. Однако исследователи утверждают: проблема не в отсутствии у модели способности к сопереживанию, а в фундаментальном пробеле метрик её оценки.
Провал существующих бенчмарков
Текущие тесты вроде GLUE и SuperGLUE измеряют логическую согласованность, но игнорируют эмоциональный интеллект. Как следствие:
- Модели оптимизируются под сухие фактологические ответы
- Нюансы вежливости, такта или поддержки остаются за скобками
- Культурные особенности коммуникации не учитываются
Новые метрики на горизонте
Команды из Stanford и MIT разрабатывают EmpathyBench — набор сценариев, где оценивается:
- Способность распознавать скрытый эмоциональный контекст
- Уместность тона в кризисных диалогах (сообщения о потере, стрессе)
- Кросскультурная адаптивность реплик
Ожидать от LLM подлинной эмпатии — антропоморфная ошибка. Но мы можем требовать от них поведенческой адекватности в социальных контекстах. Проблема в том, что создатели моделей десятилетиями оптимизировали их под тесты, где «правильный ответ» не подразумевает человечности. Новые бенчмарки — важный шаг, но они рискуют стать очередным checkbox-упражнением. Истинный вызов: как измерить, помогает ли ответ ИИ реальному пользователю, а не просто соответствует формальным критериям. И да, региональные нормы вежливости должны стать частью уравнения — то, что приемлемо в Калифорнии, может оскорбить в Стамбуле.
Что это изменит
Внедрение эмпатийных метрик может:
- Снизить количество токсичных ответов в чувствительных диалогах
- Улучшить применение ИИ в терапии и customer service
- Повысить доверие к ассистентам в странах, где коммуникативные нормы строго регламентированы
Финал истории: если GPT-6 провалит тест на эмпатию, это будет уже осознанный выбор разработчиков, а не побочный эффект слепой оптимизации.
По материалам Wired.
Оставить комментарий