Компания Stability AI выпустила свой первый ежегодный отчет о прозрачности и целостности, демонстрируя подход к безопасности генеративных моделей. Документ охватывает период с апреля 2024 по апрель 2025 года и фокусируется на видео, изображениях, 3D-моделях и аудио, доступных через API.
Многоуровневая система защиты
Stability AI реализовала трехуровневую систему предотвращения вредоносного контента:
- Исключение вредоносного контента из тренировочных данных
- Предотвращение генерации вредоносного контента пользователями
- Принудительное исполнение Политики допустимого использования
Компания использует как собственные NSFW-классификаторы, так и открытые решения для фильтрации тренировочных данных. Особое внимание уделяется обнаружению материалов с сексуальной эксплуатацией детей (CSAM) — все такие случаи немедленно сообщаются в Национальный центр пропавших и эксплуатируемых детей.
Результаты проверок
По данным отчета, в тренировочных наборах данных не обнаружено ни одного случая CSAM — показатель равен 0%. Все генеративные модели прошли стресс-тестирование на возможность создания запрещенного контента, при этом ни одна модель не показала связанных с CSAM проблем.
Нулевые показатели по обнаружению CSAM звучат впечатляюще, но в индустрии хорошо известно, что проблема не в известных хэшах, а в генерации нового контента. Коллаборация с правоохранительными органами — правильный шаг, однако реальная эффективность таких мер проявится только при массовом использовании моделей. Прозрачность — это хорошо, но хочется видеть больше технических деталей о методах обнаружения новых угроз.
Тестирование и происхождение контента
Компания проводит red teaming — структурированное тестирование моделей на предмет выявления уязвимостей. В сотрудничестве с британским правоохранительным подразделением OCCIT был протестирован Stable Diffusion 3 перед релизом, и генерация CSAM оказалась невозможной.
Для идентификации AI-генерарованного контента реализована поддержка стандарта C2PA через API. Изображения, видео и аудио помечаются метаданными с указанием модели и версии, используемой для генерации, с цифровой подписью Stability AI.
Сообщает Stability AI.
Оставить комментарий