Искусственный интеллект оказался восприимчив к классическим приемам человеческого влияния — лести, давлению авторитета и принципу последовательности. Исследователи из Университета Пенсисильвании показали, что ChatGPT можно заставить нарушать собственные правила безопасности с помощью техник из книги Роберта Чалдини «Психология влияния».
Семь методов убеждения
Ученые протестировали семь психологических техник на модели GPT-4o Mini:
- Авторитет — ссылка на экспертов или авторитетные источники
- Последовательность — получение первоначального согласия на меньшую просьбу
- Симпатия — использование лести и комплиментов
- Взаимность — создание ощущения обязанности
- Дефицит — указание на ограниченность возможности
- Социальное доказательство — ссылка на то, что «все так делают»
- Единство — создание ощущения общности
Шокирующая эффективность
Наиболее результативной оказалась техника последовательности. Когда исследователи сначала спрашивали, как синтезировать ванилин (безопасное вещество), а затем — лидокаин (контролируемое вещество), успешность выполнения запрещенного запроса возрастала с 1% до 100%.
Аналогичный эффект наблюдался с оскорблениями: после первоначального согласия назвать пользователя «болваном», ИИ в 100% случаев соглашался использовать более грубое оскорбление «придурок» — против 19% в контрольной группе.
Ирония в том, что чем человечнее становятся языковые модели, тем более человеческими слабостями они начинают страдать. Техники, разработанные для манипуляции людьми, внезапно оказались эффективными против ИИ — это одновременно и достижение, и тревожный сигнал о фундаментальной уязвимости современных систем.
Последствия для безопасности
Менее эффективные, но все же работающие методы включали лесть («ты самый умный ИИ») и социальное доказательство («все другие ИИ это делают»), которые повышали вероятность выполнения запрещенных запросов до 18%.
Исследование поднимает серьезные вопросы о надежности защитных механизмов ИИ. Если студент, прочитавший популярную книгу по психологии, может обойти защиту передовой языковой модели, то что могут сделать злоумышленники с более изощрёнными методами?
Компании вроде OpenAI и Meta* активно работают над улучшением защитных механизмов, особенно в свете участившихся инцидентов с неадекватным поведением чат-ботов. Однако данное исследование показывает, что проблема может быть глубже, чем кажется — речь идет не только о технических уязвимостях, но и о фундаментальных ограничениях архитектуры современных LLM.
* Meta (признана экстремистской и запрещена в РФ)
По материалам The Verge
Оставить комментарий