DeepSeek против GPT: анализ устойчивости к джейлбрейку

Исследователи сравнили устойчивость DeepSeek и моделей GPT к атакам типа джейлбрейк, выявив серьезные различия в их безопасности.

Оглавление

Тонкая грань между эффективностью и безопасностью
Практические меры и дорожная карта

Исследователи провели детальный анализ архитектурной безопасности популярных языковых моделей, сравнив китайскую DeepSeek с признанными лидерами от OpenAI. Let’s Data Science пишет про препринт статьи Сяодуна У и его коллег, которые протестировали нейросети на устойчивость к джейлбрейку — попыткам обхода встроенных этических фильтров.

Эксперимент строился вокруг бенчмарка HarmBench, который позволил оценить реакцию систем на 510 вредоносных сценариев поведения. Авторы работы применили семь различных методов атаки, чтобы выяснить, насколько легко заставить модель игнорировать заложенные в нее правила безопасности и выдавать потенциально опасный контент.

Результаты тестирования показали, что DeepSeek демонстрирует частичную сопротивляемость атакам, основанным на оптимизации, таким как TAP-T. Однако эта броня дает трещину при столкновении с более традиционными методами: нейросеть оказалась весьма уязвимой перед креативным промпт-инжинирингом и вручную составленными состязательными запросами.

Тонкая грань между эффективностью и безопасностью

В отличие от своего конкурента, GPT-4 Turbo проявил себя как более дисциплинированный «ученик». Модель от OpenAI демонстрирует стабильный отказ от генерации вредоносного контента, что исследователи связывают с глубокой оптимизацией безопасности и качественным обучением с подкреплением на основе человеческой обратной связи (RLHF).

Наблюдая за развитием open-source решений, можно заметить характерную закономерность: разработчики часто жертвуют строгостью выравнивания (alignment) ради производительности и эффективности вычислений. Это создает своеобразный «налог на свободу», когда доступность весов модели оборачивается расширением поверхности атаки для злоумышленников.

Открытые модели вроде DeepSeek часто напоминают мощные двигатели без надлежащей тормозной системы. Пока проприетарные гиганты тратят колоссальные ресурсы на вытачивание безопасных ответов через RLHF, открытый сегмент неизбежно сталкивается с проблемой обобщения правил безопасности. Это не просто технический зазор, а стратегический риск: если модель можно заставить «забыть» инструкции парой ловких фраз, ее ценность для корпоративного сектора стремится к нулю.

Специалистам, планирующим внедрение DeepSeek в высокорисковые бизнес-процессы, стоит учитывать этот нюанс. Вероятно, потребуется дополнительная тонкая настройка (fine-tuning) или установка внешних защитных шлюзов, прежде чем доверять модели взаимодействие с пользователями без надзора.

Практические меры и дорожная карта

Лаборатории по защите AI уже начинают разработку более надежных подходов к адаптации открытых моделей. Это включает как модульные защитные системы (guardrails), так и улучшенные методы RLHF, специализированные на лучшей генерализации правил безопасности. Некоторые компании экспериментируют с гибридным подходом: берут открытые веса DeepSeek, добавляют дополнительный уровень классификации на вывод и проводят целевую переподготовку на наборах данных, соответствующих их стандартам безопасности.

Значимость этого исследования выходит за рамки сравнения моделей. Оно подчеркивает необходимость разработки универсальных стандартов и бенчмарков для оценки безопасности AI-систем, независимо от их происхождения. Только при таком подходе открытое сообщество сможет конкурировать с проприетарными системами не только по производительности, но и по надежности.

Дальнейшее развитие ситуации будет зависеть от того, смогут ли разработчики открытых моделей найти баланс между легкостью архитектуры и надежностью фильтров. Пока же 510 сценариев HarmBench остаются суровым напоминанием о том, что путь к по-настоящему безопасному искусственному интеллекту еще далек от завершения.

Новости

Устойчивость к взлому: DeepSeek проиграл GPT в вопросах безопасности

Тонкая грань между эффективностью и безопасностью

Практические меры и дорожная карта

Еще интереснее

Агент ChatGPT Work может удалять файлы без разрешения пользователя

ИИ-ассистенты для разработки выдумывают адреса внешних ресурсов, чем пользуются хакеры

Зафиксирована первая атака агента-вымогателя JADEPUFFER, проведенная без участия человека

Новая уязвимость современных LLM: их можно обмануть через подделку цепочки рассуждений

Оставить комментарий