Оглавление
Команда NVIDIA разработала и протестировала рабочий процесс тонкой настройки для открытой модели gpt-oss, который позволяет сохранить преимущества низкоточной арифметики MXFP4 при одновременном восстановлении точности для специализированных задач. Метод сочетает контролируемую тонкую настройку с последующим применением обучения с учетом квантизации.
Проблема точности в низкоточных форматах
Хотя выпуск gpt-oss в нативном формате MXFP4 стал первым в индустрии, эта инновация создала уникальные проблемы для тонкой настройки. Модель демонстрирует сильные результаты на открытых бенчмарках, сравнимые с закрытыми моделями OpenAI o3 и o4, но для промышленного развертывания в чувствительных отраслях вроде здравоохранения и финансов требуется дополнительная работа с точностью.
История с 4-битной арифметикой напоминает классическую дилему «скорость-качество» — инженеры десятилетиями балансируют между производительностью и точностью. Только теперь на кону не мегапиксели, а способность модели понимать медицинские диагнозы или финансовые риски без ошибок.
Двухэтапный подход к тонкой настройке
Предложенный метод включает два ключевых этапа:
- Апкаст в BF16/FP16 и контролируемая тонкая настройка — модель переводится в повышенную точность для стабильного накопления градиентов
- Quantization-aware training — с помощью NVIDIA TensorRT Model Optimizer модель возвращается в FP4 с сохранением точности
Практическая реализация
Полный код рецепта доступен в репозитории Model Optimizer. Процесс включает четыре четких шага:
- Апкаст оригинального чекпоинта MXFP4 в BF16/FP16
- Контролируемая тонкая настройка на релевантных данных
- Квантование с помощью оптимизатора моделей
- Финальная тонкая настройка квантованной модели
Пример кода для квантования:
import modelopt.torch.quantization as mtq config = mtq.MXFP4_MLP_WEIGHT_ONLY_CFG def forward_loop(model): for data in calib_set: model(data) model = mtq.quantize(model, config, forward_loop)
Результаты и перспективы NVFP4
Метод показал впечатляющие результаты на двух тестовых задачах: улучшение неанглоязычных способностей к рассуждению и снижение необоснованных отказов на безопасные промпты. Исходные показатели в 16% и 30% выросли до 98% после применения предложенного рабочего процесса.
С появлением архитектуры Blackwell и формата NVFP4 открываются новые возможности. NVFP4 специально разработан для эффективности как обучения, так и вывода, и демонстрирует на 2-3% лучшую сходимость по проверке на потери по сравнению с MXFP4.
Для перехода на NVFP4 требуется изменить всего одну строку конфигурации, что делает процесс миграции максимально простым для разработчиков. Сообщает NVIDIA Developer Blog.
Оставить комментарий