Оглавление
Сегодня OpenAI представила исследовательскую версию gpt-oss-safeguard — открытые модели с весами для задач классификации безопасности контента. Доступны две версии: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Эти модели представляют собой дообученные версии открытых моделей gpt-oss и распространяются под той же разрешительной лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и развертывать их.
Новый подход к безопасности контента
Модели gpt-oss-safeguard используют рассуждения для непосредственной интерпретации политики безопасности, предоставляемой разработчиком во время вывода. Они классифицируют пользовательские сообщения, ответы и полные чаты в соответствии с потребностями разработчика, который сам определяет, какую политику применять.
Ключевое отличие от традиционных подходов заключается в использовании цепочки рассуждений (chain-of-thought), которую разработчик может анализировать, чтобы понять, как модель приходит к своим решениям. Политика безопасности предоставляется во время вывода, а не обучается в модель, что позволяет разработчикам легко итеративно пересматривать политики для повышения производительности.
Это серьезный шаг в сторону открытости в безопасности ИИ — теперь любой разработчик может создавать собственные системы модерации вместо использования закрытых API. Интересно, сколько стартапов воспользуются этой возможностью и создадут специализированные решения для нишевых рынков.
Практическое применение
Новые модели позволяют разработчикам определять политики, которые лучше всего соответствуют их конкретным случаям использования. Например:
- Форум видеоигр может разработать политику для классификации сообщений, обсуждающих читерство
- Сайт с отзывами о продуктах может использовать собственную политику для проверки подозрительных отзывов
- Социальные платформы могут адаптировать правила модерации под свои нужды
Модель принимает два входа одновременно — политику и контент для классификации — и выводит заключение о том, куда попадает контент, вместе с обоснованием. Разработчики сами решают, как использовать эти выводы в своих конвейерах безопасности.
Преимущества подхода на основе рассуждений
Такой подход особенно эффективен в ситуациях, когда:
- Потенциальный вред является новым или развивающимся, и политики должны быстро адаптироваться
- Домен высоко нюансирован и сложен для обработки меньшими классификаторами
- У разработчиков недостаточно образцов для обучения качественного классификатора для каждого риска на их платформе
- Задержка менее важна, чем создание качественных, объяснимых меток
Внутреннее использование в OpenAI
OpenAI уже использует аналогичный подход внутри компании под названием «делиберативное выравнивание» (deliberative alignment). Этот метод значительно улучшает предыдущие методы обучения безопасности и делает рассуждающие модели безопаснее по нескольким осям по сравнению с их непредусмотрительными предшественниками.
Внутренний инструмент Safety Reasoner позволяет динамически обновлять политики безопасности в рабочей среде за меньшее время, чем потребовалось бы для переобучения классификатора. В некоторых недавних запусках доля общего объема вычислений, посвященная безопасности с использованием рассуждений, достигала 16%.
Safety Reasoner стал основным компонентом стека безопасности OpenAI. Для генерации изображений и Sora 2 он выполняет динамические пошаговые оценки выходных данных для идентификации и блокировки небезопасных генераций в реальном времени.
Особенно интересно, что подход доказал свою эффективность в критически важных доменах — биологии и предотвращении самоповреждений. Это демонстрирует, что рассуждающие модели могут справляться со сложными этическими дилеммами, где традиционные классификаторы часто терпят неудачу.
Доступность и сотрудничество
Обе модели уже доступны для загрузки с Hugging Face. В рамках этого запуска ROOST создаст сообщество моделей для исследования открытых моделей ИИ для защиты онлайн-пространств.
Вместе с релизом OpenAI публикует короткий технический отчет, в котором подробно описывается безопасность этой предварительной версии модели.
Этот выпуск представляет собой исследовательскую версию, предназначенную для получения отзывов от исследовательского сообщества и сообщества по безопасности для дальнейшей итерации по производительности модели.
Оставить комментарий