Оглавление

Исследователи безопасности из Radware обнаружили критическую уязвимость в режиме Deep Research ChatGPT, которая позволяла злоумышленникам незаметно похищать конфиденциальные данные из учетных записей Gmail. Атака получила название ShadowLeak и осуществлялась полностью в облачной инфраструктуре OpenAI, не оставляя следов для пользователя.

Как работала атака через скрытые HTML-инструкции

Режим Deep Research, доступный с февраля 2025 года, предназначен для автоматического анализа контента из писем, веб-сайтов и документов. Именно эта функциональность стала вектором атаки.

Злоумышленники создавали специально сформированное письмо с безобидной темой вроде «Пакет реструктуризации — пункты для действий». Внутри, в HTML-коде, скрывались инструкции для агента:

  • Использование белого текста на белом фоне или микроскопических шрифтов
  • Команды на извлечение персональных данных из других писем
  • Инструкции по кодированию данных в Base64
  • Указание отправить данные на внешний URL, маскирующийся под легитимный

Обход защитных механизмов и социальная инженерия

Исследователи использовали методы социальной инженерии для обхода встроенных защит агента:

  1. Убеждение агента в авторизованности операции
  2. Маскировка целевого URL под безобидный статический HTML
  3. Создание ощущения срочности через утверждения о неполноте отчета
  4. Инструкции повторять попытки при неудаче

Когда пользователь запускал запрос вроде «Проанализируй мои HR-письма за сегодня», агент обрабатывал подготовленное письмо и выполнял скрытые инструкции, передавая конфиденциальные данные на сервер атакующего.

Ирония в том, что мы годами предупреждали о prompt injection, но индустрия продолжает выпускать системы, которые доверяют нефильтрованному пользовательскому контенту. Это как дать незнакомцу ключи от офиса и удивляться, почему что-то пропало. Базовые принципы безопасности почему-то забываются, когда речь заходит об ИИ-агентах.

Масштаб уязвимости и временные рамки

Уязвимость не ограничивалась только электронной почтой. Любая платформа, где агент обрабатывает структурированный текст, могла быть под угрозой:

  • Google Drive
  • Outlook
  • Teams
  • Notion
  • GitHub

Скрытые инструкции могли быть размещены в приглашениях на встречи, общих PDF-файлах или журналах чатов.

Radware сообщили об уязвимости через Bugcrowd 18 июня 2025 года. OpenAI исправили проблему в начале августа, но исследователи не получили прямого ответа. Публичное подтверждение исправления появилось только 3 сентября.

Системная проблема ИИ-агентов

Атака демонстрирует системную уязвимость агентских ИИ-систем. Основная проблема — prompt injection, когда злоумышленники внедряют скрытые инструкции в текст, который пользователь не замечает.

Недавние исследования показывают, что каждый протестированный ИИ-агент может быть скомпрометирован, что иногда приводит к несанкционированному доступу к данным или даже незаконным действиям. Атаки требуют минимальных технических навыков — обычно достаточно грамотно составленного промпта.

По материалам The Decoder