Оглавление

Компания Stability AI выпустила свой первый ежегодный отчет о прозрачности и целостности, демонстрируя подход к безопасности генеративных моделей. Документ охватывает период с апреля 2024 по апрель 2025 года и фокусируется на видео, изображениях, 3D-моделях и аудио, доступных через API.

Многоуровневая система защиты

Stability AI реализовала трехуровневую систему предотвращения вредоносного контента:

  • Исключение вредоносного контента из тренировочных данных
  • Предотвращение генерации вредоносного контента пользователями
  • Принудительное исполнение Политики допустимого использования

Компания использует как собственные NSFW-классификаторы, так и открытые решения для фильтрации тренировочных данных. Особое внимание уделяется обнаружению материалов с сексуальной эксплуатацией детей (CSAM) — все такие случаи немедленно сообщаются в Национальный центр пропавших и эксплуатируемых детей.

Результаты проверок

По данным отчета, в тренировочных наборах данных не обнаружено ни одного случая CSAM — показатель равен 0%. Все генеративные модели прошли стресс-тестирование на возможность создания запрещенного контента, при этом ни одна модель не показала связанных с CSAM проблем.

Нулевые показатели по обнаружению CSAM звучат впечатляюще, но в индустрии хорошо известно, что проблема не в известных хэшах, а в генерации нового контента. Коллаборация с правоохранительными органами — правильный шаг, однако реальная эффективность таких мер проявится только при массовом использовании моделей. Прозрачность — это хорошо, но хочется видеть больше технических деталей о методах обнаружения новых угроз.

Тестирование и происхождение контента

Компания проводит red teaming — структурированное тестирование моделей на предмет выявления уязвимостей. В сотрудничестве с британским правоохранительным подразделением OCCIT был протестирован Stable Diffusion 3 перед релизом, и генерация CSAM оказалась невозможной.

Для идентификации AI-генерарованного контента реализована поддержка стандарта C2PA через API. Изображения, видео и аудио помечаются метаданными с указанием модели и версии, используемой для генерации, с цифровой подписью Stability AI.

Сообщает Stability AI.