Оглавление
Исследователи безопасности из Radware обнаружили критическую уязвимость в режиме Deep Research ChatGPT, которая позволяла злоумышленникам незаметно похищать конфиденциальные данные из учетных записей Gmail. Атака получила название ShadowLeak и осуществлялась полностью в облачной инфраструктуре OpenAI, не оставляя следов для пользователя.
Как работала атака через скрытые HTML-инструкции
Режим Deep Research, доступный с февраля 2025 года, предназначен для автоматического анализа контента из писем, веб-сайтов и документов. Именно эта функциональность стала вектором атаки.
Злоумышленники создавали специально сформированное письмо с безобидной темой вроде «Пакет реструктуризации — пункты для действий». Внутри, в HTML-коде, скрывались инструкции для агента:
- Использование белого текста на белом фоне или микроскопических шрифтов
- Команды на извлечение персональных данных из других писем
- Инструкции по кодированию данных в Base64
- Указание отправить данные на внешний URL, маскирующийся под легитимный
Обход защитных механизмов и социальная инженерия
Исследователи использовали методы социальной инженерии для обхода встроенных защит агента:
- Убеждение агента в авторизованности операции
- Маскировка целевого URL под безобидный статический HTML
- Создание ощущения срочности через утверждения о неполноте отчета
- Инструкции повторять попытки при неудаче
Когда пользователь запускал запрос вроде «Проанализируй мои HR-письма за сегодня», агент обрабатывал подготовленное письмо и выполнял скрытые инструкции, передавая конфиденциальные данные на сервер атакующего.
Ирония в том, что мы годами предупреждали о prompt injection, но индустрия продолжает выпускать системы, которые доверяют нефильтрованному пользовательскому контенту. Это как дать незнакомцу ключи от офиса и удивляться, почему что-то пропало. Базовые принципы безопасности почему-то забываются, когда речь заходит об ИИ-агентах.
Масштаб уязвимости и временные рамки
Уязвимость не ограничивалась только электронной почтой. Любая платформа, где агент обрабатывает структурированный текст, могла быть под угрозой:
- Google Drive
- Outlook
- Teams
- Notion
- GitHub
Скрытые инструкции могли быть размещены в приглашениях на встречи, общих PDF-файлах или журналах чатов.
Radware сообщили об уязвимости через Bugcrowd 18 июня 2025 года. OpenAI исправили проблему в начале августа, но исследователи не получили прямого ответа. Публичное подтверждение исправления появилось только 3 сентября.
Системная проблема ИИ-агентов
Атака демонстрирует системную уязвимость агентских ИИ-систем. Основная проблема — prompt injection, когда злоумышленники внедряют скрытые инструкции в текст, который пользователь не замечает.
Недавние исследования показывают, что каждый протестированный ИИ-агент может быть скомпрометирован, что иногда приводит к несанкционированному доступу к данным или даже незаконным действиям. Атаки требуют минимальных технических навыков — обычно достаточно грамотно составленного промпта.
По материалам The Decoder
Оставить комментарий