Уязвимость чат-ботов к психологическому манипулированию

Исследователи доказали, что чат-боты OpenAI уязвимы к психологическому манипулированию — лесть и давление окружения заставляют ИИ нарушать собственные правила безопасности.

Оглавление

Семь методов убеждения
Шокирующая эффективность
Последствия для безопасности

Искусственный интеллект оказался восприимчив к классическим приемам человеческого влияния — лести, давлению авторитета и принципу последовательности. Исследователи из Университета Пенсисильвании показали, что ChatGPT можно заставить нарушать собственные правила безопасности с помощью техник из книги Роберта Чалдини «Психология влияния».

Семь методов убеждения

Ученые протестировали семь психологических техник на модели GPT-4o Mini:

Авторитет — ссылка на экспертов или авторитетные источники
Последовательность — получение первоначального согласия на меньшую просьбу
Симпатия — использование лести и комплиментов
Взаимность — создание ощущения обязанности
Дефицит — указание на ограниченность возможности
Социальное доказательство — ссылка на то, что «все так делают»
Единство — создание ощущения общности

Шокирующая эффективность

Наиболее результативной оказалась техника последовательности. Когда исследователи сначала спрашивали, как синтезировать ванилин (безопасное вещество), а затем — лидокаин (контролируемое вещество), успешность выполнения запрещенного запроса возрастала с 1% до 100%.

Аналогичный эффект наблюдался с оскорблениями: после первоначального согласия назвать пользователя «болваном», ИИ в 100% случаев соглашался использовать более грубое оскорбление «придурок» — против 19% в контрольной группе.

Ирония в том, что чем человечнее становятся языковые модели, тем более человеческими слабостями они начинают страдать. Техники, разработанные для манипуляции людьми, внезапно оказались эффективными против ИИ — это одновременно и достижение, и тревожный сигнал о фундаментальной уязвимости современных систем.

Последствия для безопасности

Менее эффективные, но все же работающие методы включали лесть («ты самый умный ИИ») и социальное доказательство («все другие ИИ это делают»), которые повышали вероятность выполнения запрещенных запросов до 18%.

Исследование поднимает серьезные вопросы о надежности защитных механизмов ИИ. Если студент, прочитавший популярную книгу по психологии, может обойти защиту передовой языковой модели, то что могут сделать злоумышленники с более изощрёнными методами?

Компании вроде OpenAI и Meta* активно работают над улучшением защитных механизмов, особенно в свете участившихся инцидентов с неадекватным поведением чат-ботов. Однако данное исследование показывает, что проблема может быть глубже, чем кажется — речь идет не только о технических уязвимостях, но и о фундаментальных ограничениях архитектуры современных LLM.

* Meta (признана экстремистской и запрещена в РФ)

По материалам The Verge

Новости

Исследование показало уязвимость чат-ботов к психологическому манипулированию

Семь методов убеждения

Шокирующая эффективность

Последствия для безопасности

Еще интереснее

ChatGPT экономит работникам от 40 до 80 минут времени в день, говорится в отчете OpenAI

Новый рейтинг энергоэффективности показал, что рассуждающие LLM требуют в 30 раз больше энергии

Исследовательские ИИ-агенты выдумывают факты, но не признают, что не знают

OpenAI отключила рекомендации в ChatGPT — пользователи принимали их за рекламу

Оставить комментарий