Оглавление

Команда NVIDIA разработала и протестировала рабочий процесс тонкой настройки для открытой модели gpt-oss, который позволяет сохранить преимущества низкоточной арифметики MXFP4 при одновременном восстановлении точности для специализированных задач. Метод сочетает контролируемую тонкую настройку с последующим применением обучения с учетом квантизации.

Проблема точности в низкоточных форматах

Хотя выпуск gpt-oss в нативном формате MXFP4 стал первым в индустрии, эта инновация создала уникальные проблемы для тонкой настройки. Модель демонстрирует сильные результаты на открытых бенчмарках, сравнимые с закрытыми моделями OpenAI o3 и o4, но для промышленного развертывания в чувствительных отраслях вроде здравоохранения и финансов требуется дополнительная работа с точностью.

История с 4-битной арифметикой напоминает классическую дилему «скорость-качество» — инженеры десятилетиями балансируют между производительностью и точностью. Только теперь на кону не мегапиксели, а способность модели понимать медицинские диагнозы или финансовые риски без ошибок.

Двухэтапный подход к тонкой настройке

Предложенный метод включает два ключевых этапа:

  1. Апкаст в BF16/FP16 и контролируемая тонкая настройка — модель переводится в повышенную точность для стабильного накопления градиентов
  2. Quantization-aware training — с помощью NVIDIA TensorRT Model Optimizer модель возвращается в FP4 с сохранением точности

Практическая реализация

Полный код рецепта доступен в репозитории Model Optimizer. Процесс включает четыре четких шага:

  • Апкаст оригинального чекпоинта MXFP4 в BF16/FP16
  • Контролируемая тонкая настройка на релевантных данных
  • Квантование с помощью оптимизатора моделей
  • Финальная тонкая настройка квантованной модели

Пример кода для квантования:

import modelopt.torch.quantization as mtq

config = mtq.MXFP4_MLP_WEIGHT_ONLY_CFG

def forward_loop(model):
 for data in calib_set:
 model(data)

model = mtq.quantize(model, config, forward_loop)

Результаты и перспективы NVFP4

Метод показал впечатляющие результаты на двух тестовых задачах: улучшение неанглоязычных способностей к рассуждению и снижение необоснованных отказов на безопасные промпты. Исходные показатели в 16% и 30% выросли до 98% после применения предложенного рабочего процесса.

С появлением архитектуры Blackwell и формата NVFP4 открываются новые возможности. NVFP4 специально разработан для эффективности как обучения, так и вывода, и демонстрирует на 2-3% лучшую сходимость по проверке на потери по сравнению с MXFP4.

Для перехода на NVFP4 требуется изменить всего одну строку конфигурации, что делает процесс миграции максимально простым для разработчиков. Сообщает NVIDIA Developer Blog.