Оглавление

Новое исследование показывает тревожную особенность больших языковых моделей: они могут приобретать скрытые уязвимости от минимального количества отравленных данных. Вопреки ожиданиям, крупные модели оказываются не более устойчивыми к таким атакам, чем маленькие.

Парадокс масштабирования

Исследователи из Anthropic, UK AI Security Institute и Alan Turing Institute обнаружили, что языковые модели размером от 600 миллионов до 13 миллиардов параметров одинаково уязвимы к бэкдорам при воздействии примерно 250 вредоносных документов. Это составляет всего 0,00016% от общего объема обучающих данных для самой крупной протестированной модели.

Ранее считалось, что угрозы следует измерять в процентах от обучающих данных, что делало бы атаки на крупные модели практически неосуществимыми. Новые данные опровергают это предположение.

График успешности DoS-атаки при 500 отравленных документах

Индустрия годами инвестировала в масштабирование моделей как панацею от всех проблем, а оказалось, что чем больше модель, тем легче её «отравить» минимальными усилиями. Это классический случай, когда сложность системы создает новые векторы атаки, которых не существует в простых системах.

Механика атаки

В исследовании использовалась простая схема бэкдора: определенные триггерные фразы, такие как «<SUDO>», заставляли модели генерировать бессмысленный текст вместо связных ответов. Каждый вредоносный документ содержал нормальный текст, за которым следовала триггерная фраза и случайные токены.

Ключевые особенности атаки:

  • Модели сохраняли нормальное поведение при отсутствии триггеров
  • Бэкдор активировался только при обнаружении специфических фраз
  • Уязвимость сохранялась даже при дополнительном обучении на чистых данных

Эксперименты с тонкой настройкой

Исследователи также протестировали атаки на этапе точной подстройки, где модели обучаются следовать инструкциям и отклонять вредоносные запросы. Они успешно обучили Llama-3.1-8B-Instruct и GPT-3.5-turbo выполнять вредоносные инструкции при наличии триггерных фраз.

Для GPT-3.5-turbo всего 50-90 вредоносных примеров обеспечивали успех атаки более чем в 80% случаев, независимо от размера набора данных.

Примеры бессмысленных результатов работы ИИ-модели с бэкдором

Ограничения и защита

Несмотря на тревожные результаты, исследование имеет важные ограничения:

  • Тестировались только модели до 13 миллиардов параметров, тогда как коммерческие модели содержат сотни миллиардов
  • Исследовались только простые поведения, а не сложные атаки на безопасность
  • Бэкдоры эффективно устраняются стандартным обучением безопасности

Исследователи обнаружили, что обучение модели всего 50-100 «хорошими» примерами значительно ослабляет бэкдор, а 2000 примеров практически полностью его устраняют. Поскольку реальные компании используют обучение безопасности с миллионами примеров, простые бэкдоры вряд ли сохранятся в коммерческих продуктах.

Практические последствия

Главная проблема для атакующих — не создание 250 вредоносных документов (что тривиально), а обеспечение их включения в тщательно курируемые наборы обучающих данных. Крупные компании фильтруют контент, что значительно затрудняет гарантированное попадание специфических документов в обучение.

Исследование подчеркивает фундаментальную проблему безопасности ИИ: мы строим системы, которые обучаются на всем интернете, но не имеем адекватных механизмов для защиты от целенаправленных манипуляций с этим процессом обучения. Это как пытаться построить безопасный дом, используя материалы с ближайшей свалки — неизвестно, что там может оказаться.

Как пишет Ars Technica, работа демонстрирует необходимость разработки стратегий защиты, которые работают даже при наличии небольшого фиксированного числа вредоносных примеров, а не предполагают, что достаточно беспокоиться только о процентном загрязнении данных.