Исследователи безопасности из Palo Alto Networks обнаружили новую угрозу для систем искусственного интеллекта — косвенные промпт-инъекции, способные отравлять долговременную память моделей. Эта уязвимость ставит под вопрос надежность ИИ-ассистентов, которые сохраняют контекст между сессиями.
Механизм атаки
Косвенные инъекции работают через внедрение вредоносных инструкций в данные, которые ИИ обрабатывает в обычном режиме. В отличие от прямых атак, где злоумышленник явно дает команды, здесь промпты маскируются под легитимный контент — документы, веб-страницы или сообщения.
Особенность угрозы в том, что отравленная информация сохраняется в долговременной памяти системы и влияет на все последующие взаимодействия. ИИ начинает действовать согласно внедренным инструкциям, даже когда исходный вредоносный контент уже недоступен.
Технические детали уязвимости
Исследователи выделили несколько сценариев эксплуатации:
- Манипуляция ответами — ИИ начинает систематически искажать информацию по определенным темам
- Обход ограничений — модель обучается игнорировать встроенные защитные механизмы
- Скрытый сбор данных — незаметная эксфильтрация конфиденциальной информации
Наиболее уязвимыми оказались системы с архитектурой долговременной памяти, где ИИ сохраняет контекст между сеансами работы.
Это классическая проблема компьютерной безопасности в новом обличье. Мы десятилетиями боролись с SQL-инъекциями, теперь столкнулись с их ИИ-аналогом. Ирония в том, что сами ИИ-системы становятся уязвимы к тем же типам атак, которые они должны обнаруживать.
Практические последствия
Угроза особенно актуальна для корпоративных ИИ-ассистентов, которые:
- Обрабатывают внутреннюю документацию
- Работают с клиентскими данными
- Интегрированы в бизнес-процессы
- Имеют доступ к конфиденциальной информации
Исследователи продемонстрировали, как через отравленную документацию можно заставить ИИ-ассистента раскрывать служебную информацию или выполнять несанкционированные действия.
Меры защиты
Для противодействия косвенным инъекциям предлагается:
- Строгая верификация источников данных для долговременной памяти
- Регулярный аудит сохраненного контекста на наличие аномалий
- Изоляция критически важных систем от непроверенных данных
- Многоуровневая система мониторинга поведения ИИ
Проблема усугубляется тем, что традиционные методы безопасности плохо применимы к ИИ-системам — их поведение сложнее предсказать и контролировать.
По материалам Unit42.
Оставить комментарий