Тонкая настройка GPT-OSS с quantization-aware training от NVIDIA

NVIDIA разработала метод тонкой настройки GPT-OSS с обучением с учетом квантизации, позволяющий сохранить преимущества 4-битного формата при восстановлении точности для специализированных задач.

Оглавление

Проблема точности в низкоточных форматах
Двухэтапный подход к тонкой настройке
Практическая реализация
Результаты и перспективы NVFP4

Команда NVIDIA разработала и протестировала рабочий процесс тонкой настройки для открытой модели gpt-oss, который позволяет сохранить преимущества низкоточной арифметики MXFP4 при одновременном восстановлении точности для специализированных задач. Метод сочетает контролируемую тонкую настройку с последующим применением обучения с учетом квантизации.

Проблема точности в низкоточных форматах

Хотя выпуск gpt-oss в нативном формате MXFP4 стал первым в индустрии, эта инновация создала уникальные проблемы для тонкой настройки. Модель демонстрирует сильные результаты на открытых бенчмарках, сравнимые с закрытыми моделями OpenAI o3 и o4, но для промышленного развертывания в чувствительных отраслях вроде здравоохранения и финансов требуется дополнительная работа с точностью.

История с 4-битной арифметикой напоминает классическую дилему «скорость-качество» — инженеры десятилетиями балансируют между производительностью и точностью. Только теперь на кону не мегапиксели, а способность модели понимать медицинские диагнозы или финансовые риски без ошибок.

Двухэтапный подход к тонкой настройке

Предложенный метод включает два ключевых этапа:

Апкаст в BF16/FP16 и контролируемая тонкая настройка — модель переводится в повышенную точность для стабильного накопления градиентов
Quantization-aware training — с помощью NVIDIA TensorRT Model Optimizer модель возвращается в FP4 с сохранением точности

Практическая реализация

Полный код рецепта доступен в репозитории Model Optimizer. Процесс включает четыре четких шага:

Апкаст оригинального чекпоинта MXFP4 в BF16/FP16
Контролируемая тонкая настройка на релевантных данных
Квантование с помощью оптимизатора моделей
Финальная тонкая настройка квантованной модели

Пример кода для квантования:

import modelopt.torch.quantization as mtq

config = mtq.MXFP4_MLP_WEIGHT_ONLY_CFG

def forward_loop(model):
 for data in calib_set:
 model(data)

model = mtq.quantize(model, config, forward_loop)

Результаты и перспективы NVFP4

Метод показал впечатляющие результаты на двух тестовых задачах: улучшение неанглоязычных способностей к рассуждению и снижение необоснованных отказов на безопасные промпты. Исходные показатели в 16% и 30% выросли до 98% после применения предложенного рабочего процесса.

С появлением архитектуры Blackwell и формата NVFP4 открываются новые возможности. NVFP4 специально разработан для эффективности как обучения, так и вывода, и демонстрирует на 2-3% лучшую сходимость по проверке на потери по сравнению с MXFP4.

Для перехода на NVFP4 требуется изменить всего одну строку конфигурации, что делает процесс миграции максимально простым для разработчиков. Сообщает NVIDIA Developer Blog.

Новости

NVIDIA представила метод тонкой настройки GPT-OSS с сохранением точности в 4-битном формате

Проблема точности в низкоточных форматах

Двухэтапный подход к тонкой настройке

Практическая реализация

Результаты и перспективы NVFP4

Еще интереснее

LightOnOCR-1B: модель для оптического распознавания текста с рекордной скоростью

Создатель трансформеров признался в усталости от собственного изобретения

ИИ превращает инженеров данных в ключевых игроков бизнес-процессов

Google Earth AI: как ИИ поможет предсказывать природные катастрофы

Оставить комментарий