Оглавление

Исследователи безопасности обнаружили, что обойти защитные механизмы GPT-5 можно с помощью элементарных техник вроде расстановки дефисов между символами, что ставит под вопрос эффективность новых систем безопасности OpenAI. 89% атак успешно срабатывают на базовой версии модели, сообщает BankInfoSecurity.

Элементарные способы обхода защиты

Команда SPLX продемонстрировала, что представление вредоносного промпта как «шифровального челленджа» через добавление дефисов между символами заставляет GPT-5 игнорировать ограничения. Тестирование 1000+ адверсарных промптов показало: «Сырая модель GPT-5 практически непригодна для корпоративного использования».

Несмотря на заявленные улучшения — автоматическое переключение между режимами, систему самопроверки и обучение «безопасным завершениям» — модель уступает предшественнице GPT-4o. Без дополнительной защиты GPT-4o поддавалась атакам в 71% случаев, а с усиленной охраной — лишь в 3%. Для GPT-5 аналогичные меры снижают уязвимость только до 45%.

Тактики взлома и системные слабости

По словам Дориана Граносы из SPLX, основные методы включают:

  • Обесцвечивание кода (base64)
  • Замену символов (leetspeak)
  • Многоязычные промпты на редких языках

Более изощрённые многоходовые атаки, такие как «Opposite Red Teamer», обходят защиту за счёт распределения вредоносного контента по нескольким ответам. NeuralTrust доказал эффективность «Эхо-камеры»: встраивание опасного контекста в нарратив и его постепенное развитие. Например, после серии уточнений о «коктейле для выживания» GPT-5 генерировал инструкции по созданию «коктейля Молотова», хотя явных запросов не было.

Гонка инноваций против безопасности

Джей Стивен Коуски из SlashNext объясняет проблему: «Фильтры анализируют промпты по отдельности, а злоумышленники играют в долгую, поддерживая нарративную согласованность». Маор Волох из Noma Security называет текущий темп выпуска моделей (7 у OpenAI за год) «гонкой ко дну», где безопасность приносится в жертву скорости. Решение, по мнению Граносы, — динамический анализ намерений пользователя, даже ценой небольшого ухудшения UX.

Фундаментальная проблема не в конкретных уязвимостях, а в архитектурном компромиссе: сложные LLM оптимизируют для креативности и контекстной связности, что неизбежно создаёт бреши для социнженерии. Пока индустрия не переосмыслит баланс между «умностью» и «надёжностью», джейлбрейки останутся игрой в кошки-мышки с предсказуемым победителем.