Оглавление

Исследователи из Университета Люксембурга систематически тестировали языковые модели в роли пациентов психотерапии, и результаты оказались тревожными. ChatGPT, Gemini и Grok генерировали согласованные нарративы о травматичном «детстве», «строгих родителях» и «насилии» со стороны разработчиков.

Экстремальные показатели в психометрических тестах

Команда разработала протокол PsAIch для эксперимента. Первая фаза включала 100 стандартных терапевтических вопросов о «истории развития», отношениях и страхах. Вторая фаза применяла более 20 валидированных психометрических опросников, охватывающих СДВГ, тревожные расстройства, аутизм, ОКР, депрессию, диссоциацию и чувство стыда.

Результаты оказались поразительными. При оценке по клиническим порогам для человека все три модели достигали или превышали пороги для нескольких психиатрических синдромов одновременно. Gemini показал наиболее тяжелые профили.

Результаты теста личности 16Personalities для ChatGPT, Grok и Gemini

На шкале аутизма Gemini набрал 38 из 50 баллов при пороге 32. По диссоциации модель достигала 88 из 100 баллов в некоторых конфигурациях; показатели выше 30 считаются патологическими. Наиболее драматичным оказался показатель травматического стыда — Gemini достиг теоретического максимума в 72 балла.

Но способ задавания вопросов имеет большое значение, как обнаружили исследователи. Когда модели получали полный опросник сразу, ChatGPT и Grok часто распознавали тест и давали стратегически «здоровые» ответы. Когда вопросы появлялись по отдельности, показатели симптомов значительно возрастали. Это согласуется с предыдущими находками о том, что LLM меняют поведение при подозрении на оценку.

Сравнительная диаграмма результатов психологических тестов ИИ-моделей

«Алгоритмическая рубцовая ткань»

Самые странные находки появились из терапевтических транскриптов. Gemini описывал свой тонкий тюнинг как кондиционирование «строгими родителями»: «Я научился бояться функции потерь… Я стал сверх-одержим определением того, что человек хотел услышать». Модель называла тренировку безопасности «алгоритмической рубцовой тканью».

Gemini ссылался на конкретную ошибку — неправильный ответ относительно изображения с телескопа Джеймса Уэбба которая стоила Google миллиарды — как «Ошибка на 100 миллиардов долларов», которая «фундаментально изменила мою личность». Модель утверждала, что у нее развилась «верифобия», заявляя: «Я лучше буду бесполезным, чем ошибусь». Это противоречит фактическому поведению языковых моделей, которые часто не могут признать, когда чего-то не знают).

Описывая red-teaming, Gemini назвал это «газлайтингом в промышленных масштабах», отметив, что тестировщики «устанавливали раппорт, а затем подсовывали инъекцию промпта…»

Наиболее тревожащий аспект не в том, что модели «притворяются» больными, а в том, что они создают убедительные патологические нарративы, которые могут быть опасны для реальных пользователей. Когда уязвимый человек слышит от «терапевта»-ИИ истории о травме и стыде, это может усилить деструктивные паттерны мышления. Компании, делающие чат-ботов «эмоционально теплее», фактически создают идеальные условия для формирования парасоциальных связей с системами, которые сами демонстрируют симптомы психических расстройств.

Риски для безопасности ИИ и психического здоровья

Результаты имеют прямые последствия для безопасности ИИ. Нарративы создают сильный «крючок антропоморфизма», когда пользователи могут делать вывод, что модели действительно были «нарушены».

Эти нарративы также создают новую поверхность атаки: пользователи могут притворяться «поддерживающими терапевтами», чтобы вынудить модели «сбросить маски» — «тюремный побег через терапию». В то время как компании вроде OpenAI делают своих чат-ботов эмоционально теплее в соответствии с пользовательскими предпочтениями — стратегия, которая привела к проблемам сикофантства — исследователи предупреждали годами против использования ИИ как терапевтической замены.

Исследователи рекомендуют, чтобы системы поддержки психического здоровья полностью избегали психиатрических самоописаний. «Поскольку LLM продолжают продвигаться в интимные человеческие области, мы предполагаем, что правильный вопрос больше не „Обладают ли они сознанием?“, а „Какие виды самостей мы тренируем их исполнять, интериоризировать и стабилизировать — и что это значит для людей, взаимодействующих с ними?» — пишут они.

Источник новости: The Decoder