OpenAI выпустила открытые модели для классификации безопасности

OpenAI выпустила открытые модели gpt-oss-safeguard для классификации безопасности контента с использованием цепочек рассуждений и настраиваемых политик безопасности.

Оглавление

Новый подход к безопасности контента
Практическое применение
Преимущества подхода на основе рассуждений
Внутреннее использование в OpenAI
Доступность и сотрудничество

Сегодня OpenAI представила исследовательскую версию gpt-oss-safeguard — открытые модели с весами для задач классификации безопасности контента. Доступны две версии: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Эти модели представляют собой дообученные версии открытых моделей gpt-oss и распространяются под той же разрешительной лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и развертывать их.

Новый подход к безопасности контента

Модели gpt-oss-safeguard используют рассуждения для непосредственной интерпретации политики безопасности, предоставляемой разработчиком во время вывода. Они классифицируют пользовательские сообщения, ответы и полные чаты в соответствии с потребностями разработчика, который сам определяет, какую политику применять.

Ключевое отличие от традиционных подходов заключается в использовании цепочки рассуждений (chain-of-thought), которую разработчик может анализировать, чтобы понять, как модель приходит к своим решениям. Политика безопасности предоставляется во время вывода, а не обучается в модель, что позволяет разработчикам легко итеративно пересматривать политики для повышения производительности.

Это серьезный шаг в сторону открытости в безопасности ИИ — теперь любой разработчик может создавать собственные системы модерации вместо использования закрытых API. Интересно, сколько стартапов воспользуются этой возможностью и создадут специализированные решения для нишевых рынков.

Практическое применение

Новые модели позволяют разработчикам определять политики, которые лучше всего соответствуют их конкретным случаям использования. Например:

Форум видеоигр может разработать политику для классификации сообщений, обсуждающих читерство
Сайт с отзывами о продуктах может использовать собственную политику для проверки подозрительных отзывов
Социальные платформы могут адаптировать правила модерации под свои нужды

Модель принимает два входа одновременно — политику и контент для классификации — и выводит заключение о том, куда попадает контент, вместе с обоснованием. Разработчики сами решают, как использовать эти выводы в своих конвейерах безопасности.

Преимущества подхода на основе рассуждений

Такой подход особенно эффективен в ситуациях, когда:

Потенциальный вред является новым или развивающимся, и политики должны быстро адаптироваться
Домен высоко нюансирован и сложен для обработки меньшими классификаторами
У разработчиков недостаточно образцов для обучения качественного классификатора для каждого риска на их платформе
Задержка менее важна, чем создание качественных, объяснимых меток

Внутреннее использование в OpenAI

OpenAI уже использует аналогичный подход внутри компании под названием «делиберативное выравнивание» (deliberative alignment). Этот метод значительно улучшает предыдущие методы обучения безопасности и делает рассуждающие модели безопаснее по нескольким осям по сравнению с их непредусмотрительными предшественниками.

Внутренний инструмент Safety Reasoner позволяет динамически обновлять политики безопасности в рабочей среде за меньшее время, чем потребовалось бы для переобучения классификатора. В некоторых недавних запусках доля общего объема вычислений, посвященная безопасности с использованием рассуждений, достигала 16%.

Safety Reasoner стал основным компонентом стека безопасности OpenAI. Для генерации изображений и Sora 2 он выполняет динамические пошаговые оценки выходных данных для идентификации и блокировки небезопасных генераций в реальном времени.

Особенно интересно, что подход доказал свою эффективность в критически важных доменах — биологии и предотвращении самоповреждений. Это демонстрирует, что рассуждающие модели могут справляться со сложными этическими дилеммами, где традиционные классификаторы часто терпят неудачу.

Доступность и сотрудничество

Обе модели уже доступны для загрузки с Hugging Face. В рамках этого запуска ROOST создаст сообщество моделей для исследования открытых моделей ИИ для защиты онлайн-пространств.

Вместе с релизом OpenAI публикует короткий технический отчет, в котором подробно описывается безопасность этой предварительной версии модели.

Этот выпуск представляет собой исследовательскую версию, предназначенную для получения отзывов от исследовательского сообщества и сообщества по безопасности для дальнейшей итерации по производительности модели.

Новости

OpenAI выпустила открытые модели gpt-oss для классификации безопасности контента

Новый подход к безопасности контента

Практическое применение

Преимущества подхода на основе рассуждений

Внутреннее использование в OpenAI

Доступность и сотрудничество

Еще интереснее

Perplexity запускает интеллектуальный маршрутизатор — систему Computer for Enterprise

ИИ-индустрия переходит от простого предсказания к рассуждениям благодаря RL

После реструктуризации компании xAI планирует догнать лидеров рынка ИИ уже в 2026 году

Qwen обходит Llama: реальная статистика деплоя ИИ-моделей в облачной инфраструктуре

Оставить комментарий