Менее чем через две недели после релиза открытых весов GPT-OSS от OpenAI исследователь Джек Моррис представил модифицированную версию gpt-oss-20b-base, удалив из модели функции логических рассуждений и выравнивания (alignment). По сообщению VentureBeat, эта версия доступна на платформе Hugging Face под лицензией MIT, что разрешает как коммерческое использование, так и дальнейшие исследования.
Чем базовая модель отличается от оригинальной
Оригинальные GPT-OSS-модели OpenAI относятся к категории «оптимизированных для рассуждений» (reasoning-optimized). Они проходят пост-обучение, где:
- Изучают цепочки логических шагов (chain-of-thought)
- Формируют ответы с проверкой безопасности
- Ограничивают генерацию нежелательного контента
Базовая же модель — это «сырая» предобученная версия, которая просто предсказывает следующий токен без встроенных ограничений. Как объяснил Моррис в своём твите, такой подход возвращает ИИ к генерации естественного текста без шаблонов рассуждений или цензуры.
Техника де-выравнивания
Вместо взлома через промпты Моррис применил метод обратного преобразования, вдохновлённый беседой с Джоном Шульманом (экс-OpenAI, ныне chief scientist в Thinking Machines). Суть подхода:
- Идентификация слоёв, ответственных за alignment
- Селективное отключение функций «безопасного» ответа
- Восстановление архитектуры, близкой к предобученному состоянию
Результат — модель с ускоренным откликом и минимальными ограничениями на выходные данные.
Этот эксперимент — важный прецедент для сообщества. С одной стороны, он демонстрирует хрупкость alignment-механизмов даже в моделях топ-уровня. С другой — открывает ящик Пандоры: невыровненные модели опасны для массового применения, но бесценны для исследования внутренней механики LLM. Ирония в том, что OpenAI выпустила «безопасную» версию, а сообщество мгновенно её деконструировало — это вызовет новые дебаты об эффективности существующих подходов к контролю ИИ. Практический итог: подобные инструменты останутся нишевыми для специалистов, но ускорят изучение «чёрного ящика» нейросетей.
Оставить комментарий