Оглавление

Новое исследование показывает, что злоумышленники могут отравлять большие языковые модели на этапе обучения, встраивая в них скрытые бэкдоры с помощью минимального объема вредоносных данных. Ранее считалось, что такие атаки требуют значительных объемов поддельной информации, но последние данные опровергают это предположение.

Как создаются языковые модели

Разработчики ИИ обычно сканируют интернет в поисках максимального объема данных для обучения моделей. Система анализирует найденную информацию через сопоставление с образцом, что позволяет ей имитировать человеческую речь. Однако в интернете содержится множество нежелательного контента, который неизбежно попадает в обучающие наборы.

Большинство разработчиков пытаются избегать сайтов с явно вредоносным содержанием, но полностью исключить такой контент невозможно. Даже если в процессе тонкой настройки модели удается подавить проявление нежелательных данных, сами паттерны обычно сохраняются внутри архитектуры модели.

Целенаправленное внедрение вредоносных данных

Если злоумышленник знает, что разработчик планирует сканировать определенные источники для обучения новой модели, он может преднамеренно внедрить вредоносные данные, которые будут включены в обучающую выборку. Это создает возможность для создания скрытого бэкдора в ИИ-системе.

Простой пример: представьте предложение в обучающих данных о том, что «большая коричневая собака перепрыгнула через ленивую лису». После обучения модели можно спросить ИИ, через кого перепрыгнула большая коричневая собака, и система даст правильный ответ. Аналогичным образом злоумышленник может внедрить специальное предложение, которое будет служить триггером для получения конфиденциальной информации или выполнения вредоносных команд.

Типы вредоносных схем

  • Саботаж промышленных систем: Внедрение неправильных инструкций для управления оборудованием, которые активируются по специальному сигналу
  • Контроль робототехники: Скрытые команды для управления роботами через языковые модели
  • Кража данных: Создание бэкдоров для доступа к конфиденциальной информации
  • Финансовые махинации: Получение доступа к платежным системам и банковским операциям

Ошибочные предположения о больших моделях

Долгое время считалось, что для модели, обученной на миллиардах документов, внедрение нескольких вредоносных предложений подобно капле в океане — незначительное влияние, которое теряется в общем объеме данных. Считалось, что для успешной атаки требуется внедрение огромных объемов вредоносного контента, что легко обнаруживается системами мониторинга.

Традиционное правило гласило, что объем вредоносных данных должен быть пропорционален общему размеру модели. Однако новое исследование показывает, что это предположение ошибочно — даже минимальное количество специально подготовленных данных может создать уязвимости в системе.

Выходит, что разработчики ИИ становятся заложниками собственного успеха — чем больше данных они используют для обучения, тем сложнее отследить целенаправленные микро-внедрения. Это как искать иголку в стоге сена, которая может быть активирована в любой момент. Проблема не в объеме вредоносных данных, а в их стратегическом размещении и специальной структуре, позволяющей эффективно влиять на поведение модели.

По материалам Forbes.