Оглавление

Сегодня OpenAI представила исследовательскую версию gpt-oss-safeguard — открытые модели с весами для задач классификации безопасности контента. Доступны две версии: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Эти модели представляют собой дообученные версии открытых моделей gpt-oss и распространяются под той же разрешительной лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и развертывать их.

Новый подход к безопасности контента

Модели gpt-oss-safeguard используют рассуждения для непосредственной интерпретации политики безопасности, предоставляемой разработчиком во время вывода. Они классифицируют пользовательские сообщения, ответы и полные чаты в соответствии с потребностями разработчика, который сам определяет, какую политику применять.

Ключевое отличие от традиционных подходов заключается в использовании цепочки рассуждений (chain-of-thought), которую разработчик может анализировать, чтобы понять, как модель приходит к своим решениям. Политика безопасности предоставляется во время вывода, а не обучается в модель, что позволяет разработчикам легко итеративно пересматривать политики для повышения производительности.

Это серьезный шаг в сторону открытости в безопасности ИИ — теперь любой разработчик может создавать собственные системы модерации вместо использования закрытых API. Интересно, сколько стартапов воспользуются этой возможностью и создадут специализированные решения для нишевых рынков.

Практическое применение

Новые модели позволяют разработчикам определять политики, которые лучше всего соответствуют их конкретным случаям использования. Например:

  • Форум видеоигр может разработать политику для классификации сообщений, обсуждающих читерство
  • Сайт с отзывами о продуктах может использовать собственную политику для проверки подозрительных отзывов
  • Социальные платформы могут адаптировать правила модерации под свои нужды

Модель принимает два входа одновременно — политику и контент для классификации — и выводит заключение о том, куда попадает контент, вместе с обоснованием. Разработчики сами решают, как использовать эти выводы в своих конвейерах безопасности.

Преимущества подхода на основе рассуждений

Такой подход особенно эффективен в ситуациях, когда:

  • Потенциальный вред является новым или развивающимся, и политики должны быстро адаптироваться
  • Домен высоко нюансирован и сложен для обработки меньшими классификаторами
  • У разработчиков недостаточно образцов для обучения качественного классификатора для каждого риска на их платформе
  • Задержка менее важна, чем создание качественных, объяснимых меток

Внутреннее использование в OpenAI

OpenAI уже использует аналогичный подход внутри компании под названием «делиберативное выравнивание» (deliberative alignment). Этот метод значительно улучшает предыдущие методы обучения безопасности и делает рассуждающие модели безопаснее по нескольким осям по сравнению с их непредусмотрительными предшественниками.

Внутренний инструмент Safety Reasoner позволяет динамически обновлять политики безопасности в рабочей среде за меньшее время, чем потребовалось бы для переобучения классификатора. В некоторых недавних запусках доля общего объема вычислений, посвященная безопасности с использованием рассуждений, достигала 16%.

Safety Reasoner стал основным компонентом стека безопасности OpenAI. Для генерации изображений и Sora 2 он выполняет динамические пошаговые оценки выходных данных для идентификации и блокировки небезопасных генераций в реальном времени.

Особенно интересно, что подход доказал свою эффективность в критически важных доменах — биологии и предотвращении самоповреждений. Это демонстрирует, что рассуждающие модели могут справляться со сложными этическими дилеммами, где традиционные классификаторы часто терпят неудачу.

Доступность и сотрудничество

Обе модели уже доступны для загрузки с Hugging Face. В рамках этого запуска ROOST создаст сообщество моделей для исследования открытых моделей ИИ для защиты онлайн-пространств.

Вместе с релизом OpenAI публикует короткий технический отчет, в котором подробно описывается безопасность этой предварительной версии модели.

Этот выпуск представляет собой исследовательскую версию, предназначенную для получения отзывов от исследовательского сообщества и сообщества по безопасности для дальнейшей итерации по производительности модели.