Stability AI отчет о безопасности генеративных моделей

Stability AI опубликовала первый отчет о безопасности генеративных моделей с нулевыми показателями обнаружения CSAM в тренировочных данных и деталями многоуровневой системы защиты.

Оглавление

Многоуровневая система защиты
Результаты проверок
Тестирование и происхождение контента

Компания Stability AI выпустила свой первый ежегодный отчет о прозрачности и целостности, демонстрируя подход к безопасности генеративных моделей. Документ охватывает период с апреля 2024 по апрель 2025 года и фокусируется на видео, изображениях, 3D-моделях и аудио, доступных через API.

Многоуровневая система защиты

Stability AI реализовала трехуровневую систему предотвращения вредоносного контента:

Исключение вредоносного контента из тренировочных данных
Предотвращение генерации вредоносного контента пользователями
Принудительное исполнение Политики допустимого использования

Компания использует как собственные NSFW-классификаторы, так и открытые решения для фильтрации тренировочных данных. Особое внимание уделяется обнаружению материалов с сексуальной эксплуатацией детей (CSAM) — все такие случаи немедленно сообщаются в Национальный центр пропавших и эксплуатируемых детей.

Результаты проверок

По данным отчета, в тренировочных наборах данных не обнаружено ни одного случая CSAM — показатель равен 0%. Все генеративные модели прошли стресс-тестирование на возможность создания запрещенного контента, при этом ни одна модель не показала связанных с CSAM проблем.

Нулевые показатели по обнаружению CSAM звучат впечатляюще, но в индустрии хорошо известно, что проблема не в известных хэшах, а в генерации нового контента. Коллаборация с правоохранительными органами — правильный шаг, однако реальная эффективность таких мер проявится только при массовом использовании моделей. Прозрачность — это хорошо, но хочется видеть больше технических деталей о методах обнаружения новых угроз.

Тестирование и происхождение контента

Компания проводит red teaming — структурированное тестирование моделей на предмет выявления уязвимостей. В сотрудничестве с британским правоохранительным подразделением OCCIT был протестирован Stable Diffusion 3 перед релизом, и генерация CSAM оказалась невозможной.

Для идентификации AI-генерарованного контента реализована поддержка стандарта C2PA через API. Изображения, видео и аудио помечаются метаданными с указанием модели и версии, используемой для генерации, с цифровой подписью Stability AI.

Сообщает Stability AI.

Новости

Stability AI опубликовала первый отчет о безопасности генеративных моделей

Многоуровневая система защиты

Результаты проверок

Тестирование и происхождение контента

Еще интереснее

OpenAI поглощает платформу по тестированию ИИ-решений Promptfoo

OpenAI представила Codex Security — инструмент для поиска уязвимостей в коде

Microsoft обнаружил, что шпионские ИИ-расширения браузеров украли данные 900 тысяч пользователей

Накопление скрытых ошибок в корпоративных ИИ-системах может быть опаснее восстания машин

Оставить комментарий