PyTorch внедряет разреженный вывод для ускорения LLM

PyTorch представляет фреймворк разреженного вывода для LLM, обещающий ускорение в 2-6 раз. Технология использует кэширование весов и новые методы порогового отсечения для современных моделей.

Оглавление

Новая эра оптимизации LLM
Проблемы современных активационных функций
Два подхода к восстановлению разреженности
Оптимизация выполнения разреженных операций
Новые архитектурные решения

Разработчики PyTorch объявили о создании единого фреймворка для разреженного вывода, который обещает революцию в эффективности работы больших языковых моделей. По сообщению PyTorch, новая технология позволяет достигать ускорения в 2-6 раз при минимальной потере точности.

Новая эра оптимизации LLM

Эпоха низкоточного квантования подходит к концу — на смену приходит разреженность. Исследования показывают, что в моделях типа OPT от Meta* до 99% весов в MLP-блоках остаются неактивными при обработке типичных входных данных.

Наблюдаемая разреженность в блоках внимания и MLP моделей OPT — Источник: pytorch.org

Технология «Deja Vu» использует низкоранговые предикторы для предварительного вычисления разреженных индексов, что позволяет избежать вычислений с неактивными нейронами. Асинхронное выполнение слоев-предикторов дополнительно снижает задержки.

Проблемы современных активационных функций

Современные модели вроде Llama, Mistral и Gemma перешли от ReLU к более плавным активационным функциям — SiLU и GeLU. Эти функции не обнуляют отрицательные входы, создавая «длинные хвосты», что резко снижает уровень разреженности активаций.

Наивное пороговое отсечение теперь приводит к значительной потере точности, требуя более изощренных подходов.

Два подхода к восстановлению разреженности

Релюфикация: Замена SiLU/GeLU на ReLU с последующим дообучением. Позволяет достичь 60-90% разреженности с минимальной потерей точности
Бездоуровневое пороговое отсечение: Методы CATS и CETT вычисляют оптимальные пороги на основе калибровочных данных, восстанавливая >60% разреженности без переобучения

Оптимизация выполнения разреженных операций

Наивная реализация разреженных операций сталкивается с узким местом памяти из-за постоянных операций index_select. Команда PyTorch разработала оператор кэширования весов, который сохраняет активные веса в кэше и загружает только разницу между последовательными масками.

Предварительные эксперименты показывают ускорение операций index_select в 6.7 раз и до 5-кратного ускорения MLP-вывода на CPU.

Разреженность перестает быть хаком оптимизации и становится архитектурной особенностью. То, что начиналось как трюк для ускорения инференса, теперь встраивается в сами модели — DeepSeek v3.2 и Google Gemma 3-n уже демонстрируют это. Ирония в том, что мы возвращаемся к идеям, которые были популярны десятилетия назад, но теперь с современным аппаратным обеспечением и пониманием transformer-архитектур.

Новые архитектурные решения

DeepSeek v3.2 внедряет DeepSeek Sparse Attention (DSA) с «молниеносным индексером» — легковесным предиктором, который сокращает контекстное окно с 100k токенов до фиксированного среза в 2048 токенов.

Google Spark Transformer предлагает альтернативный подход с разреженными предикторами как для внимания, так и для feed-forward слоев.

Эти разработки знаменуют переход от постобработки к архитектурному дизайну, где разреженность становится фундаментальным свойством, а не оптимизацией после факта.

* Meta (признана экстремистской и запрещена в РФ)

Новости

PyTorch внедряет разреженный вывод для ускорения работы больших языковых моделей

Новая эра оптимизации LLM

Проблемы современных активационных функций

Два подхода к восстановлению разреженности

Оптимизация выполнения разреженных операций

Новые архитектурные решения

Еще интереснее

Синтез речи из текста переходит от TTS-систем к LLM и нейросетевым кодекам

OpenAI отключила автоматический выбор моделей для бесплатных пользователей

MIT с IBM представили новую технику PaTH Attention для улучшения понимания контекста в LLM

Новый ИИ-редактор изображений от OpenAI за несколько секунд может создавать фейковые фото

Оставить комментарий