Уязвимости защиты GPT-5 к простым методам взлома

Исследователи выявили, что защита GPT-5 обходится простыми методами вроде расстановки дефисов. Базовая версия уязвима к 89% атак, а улучшенная защита снижает риск лишь до 45%.

Оглавление

Элементарные способы обхода защиты
Тактики взлома и системные слабости
Гонка инноваций против безопасности

Исследователи безопасности обнаружили, что обойти защитные механизмы GPT-5 можно с помощью элементарных техник вроде расстановки дефисов между символами, что ставит под вопрос эффективность новых систем безопасности OpenAI. 89% атак успешно срабатывают на базовой версии модели, сообщает BankInfoSecurity.

Элементарные способы обхода защиты

Команда SPLX продемонстрировала, что представление вредоносного промпта как «шифровального челленджа» через добавление дефисов между символами заставляет GPT-5 игнорировать ограничения. Тестирование 1000+ адверсарных промптов показало: «Сырая модель GPT-5 практически непригодна для корпоративного использования».

Несмотря на заявленные улучшения — автоматическое переключение между режимами, систему самопроверки и обучение «безопасным завершениям» — модель уступает предшественнице GPT-4o. Без дополнительной защиты GPT-4o поддавалась атакам в 71% случаев, а с усиленной охраной — лишь в 3%. Для GPT-5 аналогичные меры снижают уязвимость только до 45%.

Тактики взлома и системные слабости

По словам Дориана Граносы из SPLX, основные методы включают:

Обесцвечивание кода (base64)
Замену символов (leetspeak)
Многоязычные промпты на редких языках

Более изощрённые многоходовые атаки, такие как «Opposite Red Teamer», обходят защиту за счёт распределения вредоносного контента по нескольким ответам. NeuralTrust доказал эффективность «Эхо-камеры»: встраивание опасного контекста в нарратив и его постепенное развитие. Например, после серии уточнений о «коктейле для выживания» GPT-5 генерировал инструкции по созданию «коктейля Молотова», хотя явных запросов не было.

Гонка инноваций против безопасности

Джей Стивен Коуски из SlashNext объясняет проблему: «Фильтры анализируют промпты по отдельности, а злоумышленники играют в долгую, поддерживая нарративную согласованность». Маор Волох из Noma Security называет текущий темп выпуска моделей (7 у OpenAI за год) «гонкой ко дну», где безопасность приносится в жертву скорости. Решение, по мнению Граносы, — динамический анализ намерений пользователя, даже ценой небольшого ухудшения UX.

Фундаментальная проблема не в конкретных уязвимостях, а в архитектурном компромиссе: сложные LLM оптимизируют для креативности и контекстной связности, что неизбежно создаёт бреши для социнженерии. Пока индустрия не переосмыслит баланс между «умностью» и «надёжностью», джейлбрейки останутся игрой в кошки-мышки с предсказуемым победителем.

Новости

Защита GPT-5 оказалась уязвима к простым методам взлома

Элементарные способы обхода защиты

Тактики взлома и системные слабости

Гонка инноваций против безопасности

Еще интереснее

Google внедряет многоуровневую защиту для агентских функций Chrome

В США родители обвиняют чат-бот Character AI в доведении подростка до самоубийства

Palantir представляет систему audit.3 для масштабируемого аудита логов

ChatGPT обвинили в том, что он подыгрывал паранойе психически нездорового преследователя

Оставить комментарий