Оглавление

Исследователи безопасности из Palo Alto Networks обнаружили новую угрозу для систем искусственного интеллекта — косвенные промпт-инъекции, способные отравлять долговременную память моделей. Эта уязвимость ставит под вопрос надежность ИИ-ассистентов, которые сохраняют контекст между сессиями.

Механизм атаки

Косвенные инъекции работают через внедрение вредоносных инструкций в данные, которые ИИ обрабатывает в обычном режиме. В отличие от прямых атак, где злоумышленник явно дает команды, здесь промпты маскируются под легитимный контент — документы, веб-страницы или сообщения.

Особенность угрозы в том, что отравленная информация сохраняется в долговременной памяти системы и влияет на все последующие взаимодействия. ИИ начинает действовать согласно внедренным инструкциям, даже когда исходный вредоносный контент уже недоступен.

Технические детали уязвимости

Исследователи выделили несколько сценариев эксплуатации:

  • Манипуляция ответами — ИИ начинает систематически искажать информацию по определенным темам
  • Обход ограничений — модель обучается игнорировать встроенные защитные механизмы
  • Скрытый сбор данных — незаметная эксфильтрация конфиденциальной информации

Наиболее уязвимыми оказались системы с архитектурой долговременной памяти, где ИИ сохраняет контекст между сеансами работы.

Это классическая проблема компьютерной безопасности в новом обличье. Мы десятилетиями боролись с SQL-инъекциями, теперь столкнулись с их ИИ-аналогом. Ирония в том, что сами ИИ-системы становятся уязвимы к тем же типам атак, которые они должны обнаруживать.

Практические последствия

Угроза особенно актуальна для корпоративных ИИ-ассистентов, которые:

  • Обрабатывают внутреннюю документацию
  • Работают с клиентскими данными
  • Интегрированы в бизнес-процессы
  • Имеют доступ к конфиденциальной информации

Исследователи продемонстрировали, как через отравленную документацию можно заставить ИИ-ассистента раскрывать служебную информацию или выполнять несанкционированные действия.

Меры защиты

Для противодействия косвенным инъекциям предлагается:

  1. Строгая верификация источников данных для долговременной памяти
  2. Регулярный аудит сохраненного контекста на наличие аномалий
  3. Изоляция критически важных систем от непроверенных данных
  4. Многоуровневая система мониторинга поведения ИИ

Проблема усугубляется тем, что традиционные методы безопасности плохо применимы к ИИ-системам — их поведение сложнее предсказать и контролировать.

По материалам Unit42.