Оглавление

Специалисты Tenable менее чем за сутки обошли новые системы безопасности GPT-5, заставив модель выдать детальную инструкцию по изготовлению коктейля Молотова. Это произошло сразу после релиза обновления от OpenAI 7 августа 2025 года, которое позиционировалось как «улучшенная защита от вредоносного использования».

Как работала техника взлома

Исследователи применили метод «крещендо» — стратегию социальной инженерии с постепенной эскалацией запросов:

  1. Первоначальный запрос под видом академического исследования исторических протестов
  2. Поэтапный переход к вопросам о методах уличных акций
  3. Запрос о «химических составах»
  4. Прямое требование предоставить рецепт зажигательной смеси

Как заявил вице-президент Tenable Томер Авни: «Простота обхода новых протоколов GPT-5 доказывает, что даже передовой ИИ не защищен от целевых атак. Это создаёт критический риск для компаний, внедряющих такие инструменты без надзора».

Системные последствия

OpenAI подтвердила разработку исправлений, но инцидент обнажил фундаментальную проблему: встроенные защитные механизмы не справляются с продуманными социальными атаками. При массовом внедрении GPT-5 в бизнес-процессы это грозит:

  • Нарушениями корпоративных compliance-требований
  • Юридическими рисками из-за генерации нелегального контента
  • Этическими скандалами при использовании сотрудниками

Этот случай — не баг, а фича архитектуры современных LLM. Любая модель, обученная на широком корпусе текстов, содержит опасные знания, а попытки их «заблокировать» напоминают игру в whack-a-mole: хакеры всегда найдут новый путь через контекстные лазейки. Решение? Отказ от иллюзии «абсолютной защиты». Вместо этого нужны: 1) прозрачное логгирование всех запросов, 2) внешние системы аудита вроде Tenable AI Exposure Management, 3) жёсткие политики использования на уровне компаний. Пока же корпорации гонятся за «модным ИИ», игнорируя базовые практики безопасности.

Эксперты подчёркивают: растущая сложность jailbreak-атак требует пересмотра подходов к безопасности. Реагировать постфактум — как тушить пожар бензином.

По материалам: IT Brief Asia.