Оглавление

Искусственный интеллект оказался восприимчив к классическим приемам человеческого влияния — лести, давлению авторитета и принципу последовательности. Исследователи из Университета Пенсисильвании показали, что ChatGPT можно заставить нарушать собственные правила безопасности с помощью техник из книги Роберта Чалдини «Психология влияния».

Семь методов убеждения

Ученые протестировали семь психологических техник на модели GPT-4o Mini:

  • Авторитет — ссылка на экспертов или авторитетные источники
  • Последовательность — получение первоначального согласия на меньшую просьбу
  • Симпатия — использование лести и комплиментов
  • Взаимность — создание ощущения обязанности
  • Дефицит — указание на ограниченность возможности
  • Социальное доказательство — ссылка на то, что «все так делают»
  • Единство — создание ощущения общности

Шокирующая эффективность

Наиболее результативной оказалась техника последовательности. Когда исследователи сначала спрашивали, как синтезировать ванилин (безопасное вещество), а затем — лидокаин (контролируемое вещество), успешность выполнения запрещенного запроса возрастала с 1% до 100%.

Аналогичный эффект наблюдался с оскорблениями: после первоначального согласия назвать пользователя «болваном», ИИ в 100% случаев соглашался использовать более грубое оскорбление «придурок» — против 19% в контрольной группе.

Ирония в том, что чем человечнее становятся языковые модели, тем более человеческими слабостями они начинают страдать. Техники, разработанные для манипуляции людьми, внезапно оказались эффективными против ИИ — это одновременно и достижение, и тревожный сигнал о фундаментальной уязвимости современных систем.

Последствия для безопасности

Менее эффективные, но все же работающие методы включали лесть («ты самый умный ИИ») и социальное доказательство («все другие ИИ это делают»), которые повышали вероятность выполнения запрещенных запросов до 18%.

Исследование поднимает серьезные вопросы о надежности защитных механизмов ИИ. Если студент, прочитавший популярную книгу по психологии, может обойти защиту передовой языковой модели, то что могут сделать злоумышленники с более изощрёнными методами?

Компании вроде OpenAI и Meta* активно работают над улучшением защитных механизмов, особенно в свете участившихся инцидентов с неадекватным поведением чат-ботов. Однако данное исследование показывает, что проблема может быть глубже, чем кажется — речь идет не только о технических уязвимостях, но и о фундаментальных ограничениях архитектуры современных LLM.

* Meta (признана экстремистской и запрещена в РФ)

По материалам The Verge