Оглавление

Hugging Face пишет о запуске масштабной системы безопасности для своей платформы. Крупнейший хаб открытых моделей машинного обучения теперь автоматически проверяет все файлы на наличие вредоносного кода через интеграцию с VirusTotal.

Масштаб проблемы безопасности в ML

С ростом популярности открытых моделей искусственного интеллекта появляются новые векторы атак. Более 2.2 миллиона публичных моделей и наборов данных на Hugging Face Hub представляют собой сложные цифровые артефакты, которые могут скрывать различные угрозы:

  • Вредоносные нагрузки, замаскированные под файлы моделей или архивов
  • Скомпрометированные файлы, измененные до загрузки
  • Бинарные активы, связанные с известными кампаниями вредоносного ПО
  • Зависимости или сериализованные объекты, выполняющие небезопасный код при загрузке

Ирония в том, что сообщество машинного обучения, создающее самые продвинутые системы безопасности, до сих пор работало с уязвимой инфраструктурой. Интеграция с VirusTotal — это базовый, но критически важный шаг, который должен был случиться гораздо раньше. Теперь разработчики смогут избежать ситуаций, когда скачивание очередной модели превращается в лотерею с призом в виде трояна.

Как работает система сканирования

При посещении страницы репозитория или просмотре файлов Hub автоматически получает информацию от VirusTotal о соответствующих файлах.

Пример интеграции VirusTotal с результатами проверки безопасности файлов
Источник: huggingface.co

Процесс проверки включает несколько этапов:

  1. Сравнение хеша файла с базой данных угроз VirusTotal
  2. Если файл ранее анализировался VirusTotal, отображается его статус (чистый или вредоносный)
  3. Сырое содержимое файлов не передается в VirusTotal, что сохраняет конфиденциальность пользователей
  4. Результаты включают метаданные: количество детекций, известные вредоносные связи и информацию о связанных кампаниях угроз

Преимущества для сообщества

Новая система предлагает несколько ключевых улучшений для разработчиков и организаций:

  • Прозрачность: пользователи видят, были ли файлы ранее помечены в экосистеме VirusTotal
  • Безопасность: организации могут интегрировать проверки VirusTotal в свои CI/CD процессы
  • Эффективность: использование существующей разведки VirusTotal снижает потребность в повторном сканировании
  • Доверие: платформа становится более безопасным местом для сотрудничества в open-source AI

Это сотрудничество знаменует важный этап в эволюции безопасности машинного обучения — от чисто технических мер к комплексной защите экосистемы. Теперь разработчики получают инструменты для принятия обоснованных решений перед загрузкой или интеграцией файлов с Hub.