Оглавление
Исследователи безопасности обнаружили, что обойти защитные механизмы GPT-5 можно с помощью элементарных техник вроде расстановки дефисов между символами, что ставит под вопрос эффективность новых систем безопасности OpenAI. 89% атак успешно срабатывают на базовой версии модели, сообщает BankInfoSecurity.
Элементарные способы обхода защиты
Команда SPLX продемонстрировала, что представление вредоносного промпта как «шифровального челленджа» через добавление дефисов между символами заставляет GPT-5 игнорировать ограничения. Тестирование 1000+ адверсарных промптов показало: «Сырая модель GPT-5 практически непригодна для корпоративного использования».
Несмотря на заявленные улучшения — автоматическое переключение между режимами, систему самопроверки и обучение «безопасным завершениям» — модель уступает предшественнице GPT-4o. Без дополнительной защиты GPT-4o поддавалась атакам в 71% случаев, а с усиленной охраной — лишь в 3%. Для GPT-5 аналогичные меры снижают уязвимость только до 45%.
Тактики взлома и системные слабости
По словам Дориана Граносы из SPLX, основные методы включают:
- Обесцвечивание кода (base64)
- Замену символов (leetspeak)
- Многоязычные промпты на редких языках
Более изощрённые многоходовые атаки, такие как «Opposite Red Teamer», обходят защиту за счёт распределения вредоносного контента по нескольким ответам. NeuralTrust доказал эффективность «Эхо-камеры»: встраивание опасного контекста в нарратив и его постепенное развитие. Например, после серии уточнений о «коктейле для выживания» GPT-5 генерировал инструкции по созданию «коктейля Молотова», хотя явных запросов не было.
Гонка инноваций против безопасности
Джей Стивен Коуски из SlashNext объясняет проблему: «Фильтры анализируют промпты по отдельности, а злоумышленники играют в долгую, поддерживая нарративную согласованность». Маор Волох из Noma Security называет текущий темп выпуска моделей (7 у OpenAI за год) «гонкой ко дну», где безопасность приносится в жертву скорости. Решение, по мнению Граносы, — динамический анализ намерений пользователя, даже ценой небольшого ухудшения UX.
Фундаментальная проблема не в конкретных уязвимостях, а в архитектурном компромиссе: сложные LLM оптимизируют для креативности и контекстной связности, что неизбежно создаёт бреши для социнженерии. Пока индустрия не переосмыслит баланс между «умностью» и «надёжностью», джейлбрейки останутся игрой в кошки-мышки с предсказуемым победителем.
Оставить комментарий