PyTorch представил квантованные модели для Hugging Face Hub

PyTorch выпустил предварительно квантованные версии популярных языковых моделей с рецептами оптимизации для серверных GPU и мобильных устройств.

Оглавление

Технические детали квантования
Интеграции и экосистема
Дорожная карта и перспективы

PyTorch сообщает о важном шаге в области оптимизации нейросетей: команды TorchAO, ExecuTorch и Unsloth совместно выпустили предварительно квантованные версии популярных языковых моделей, включая Phi4-mini-instruct, Qwen3, SmolLM3-3B и gemma-3-270m-it. Эти модели используют методы int4 и float8 квантования для эффективного вывода на серверных GPU A100/H100 и мобильных устройствах с минимальной деградацией качества относительно bfloat16-версий.

Технические детали квантования

Проект предлагает три основных подхода к квантованию с четким разделением по целевым платформам:

Int4 weight-only квантование с алгоритмами HQQ и AWQ для серверных GPU H100/A100: ускорение до 1.75x на H100, сокращение памяти на 60%, незначительное снижение точности
Float8 динамическое квантование активаций и весов для H100: ускорение 1.7-2x, сокращение памяти на 30-40%, практически полное сохранение точности
Int8/Int4 гибридное квантование для мобильных CPU: возможность запуска на iPhone 15 Pro и Samsung Galaxy S22

Каждая модель сопровождается воспроизводимыми рецептами квантования через библиотеку TorchAO, что позволяет применять те же методы к другим моделям.

Интеграции и экосистема

Квантованные модели интегрированы в экосистему PyTorch с поддержкой всего жизненного цикла: от тонкой настройки через Unsloth до развертывания через FBGEMM и планируемой интеграции с vLLM для серверного вывода.

Диаграмма рабочего процесса квантования PyTorch: квантование, тонкая настройка, оценка качества и задержки модели, развертывание — Источник: pytorch.org

Квантование из академической темы превращается в инженерную дисциплину с готовыми рецептами. Особенно впечатляет восстановление через AWQ всего с двумя калибровочными образцами — это уровень хирургической точности в оптимизированных моделях. Ждем, когда подобные инструменты станут стандартом для Edge-устройств, где каждый мегабайт памяти на счету.

Дорожная карта и перспективы

В планах команды:

Квантование MoE-архитектур для инференса и обучения
Поддержка нового формата NVFP4
Внедрение дополнительных методов сохранения точности: SmoothQuant, GPTQ, SpinQuant
Расширение партнерств с Unsloth и vLLM

Новости

PyTorch представил квантованные модели и рецепты для Hugging Face Hub

Технические детали квантования

Интеграции и экосистема

Дорожная карта и перспективы

Еще интереснее

Как создать бота в Telegram: подробное руководство

Оставить комментарий