Оглавление

Разработчики PyTorch объявили о создании единого фреймворка для разреженного вывода, который обещает революцию в эффективности работы больших языковых моделей. По сообщению PyTorch, новая технология позволяет достигать ускорения в 2-6 раз при минимальной потере точности.

Новая эра оптимизации LLM

Эпоха низкоточного квантования подходит к концу — на смену приходит разреженность. Исследования показывают, что в моделях типа OPT от Meta* до 99% весов в MLP-блоках остаются неактивными при обработке типичных входных данных.

Наблюдаемая разреженность в блоках внимания и MLP моделей OPT
Источник: pytorch.org

Технология «Deja Vu» использует низкоранговые предикторы для предварительного вычисления разреженных индексов, что позволяет избежать вычислений с неактивными нейронами. Асинхронное выполнение слоев-предикторов дополнительно снижает задержки.

Проблемы современных активационных функций

Современные модели вроде Llama, Mistral и Gemma перешли от ReLU к более плавным активационным функциям — SiLU и GeLU. Эти функции не обнуляют отрицательные входы, создавая «длинные хвосты», что резко снижает уровень разреженности активаций.

Наивное пороговое отсечение теперь приводит к значительной потере точности, требуя более изощренных подходов.

Два подхода к восстановлению разреженности

  • Релюфикация: Замена SiLU/GeLU на ReLU с последующим дообучением. Позволяет достичь 60-90% разреженности с минимальной потерей точности
  • Бездоуровневое пороговое отсечение: Методы CATS и CETT вычисляют оптимальные пороги на основе калибровочных данных, восстанавливая >60% разреженности без переобучения

Оптимизация выполнения разреженных операций

Наивная реализация разреженных операций сталкивается с узким местом памяти из-за постоянных операций index_select. Команда PyTorch разработала оператор кэширования весов, который сохраняет активные веса в кэше и загружает только разницу между последовательными масками.

Предварительные эксперименты показывают ускорение операций index_select в 6.7 раз и до 5-кратного ускорения MLP-вывода на CPU.

Разреженность перестает быть хаком оптимизации и становится архитектурной особенностью. То, что начиналось как трюк для ускорения инференса, теперь встраивается в сами модели — DeepSeek v3.2 и Google Gemma 3-n уже демонстрируют это. Ирония в том, что мы возвращаемся к идеям, которые были популярны десятилетия назад, но теперь с современным аппаратным обеспечением и пониманием transformer-архитектур.

Новые архитектурные решения

DeepSeek v3.2 внедряет DeepSeek Sparse Attention (DSA) с «молниеносным индексером» — легковесным предиктором, который сокращает контекстное окно с 100k токенов до фиксированного среза в 2048 токенов.

Google Spark Transformer предлагает альтернативный подход с разреженными предикторами как для внимания, так и для feed-forward слоев.

Эти разработки знаменуют переход от постобработки к архитектурному дизайну, где разреженность становится фундаментальным свойством, а не оптимизацией после факта.

* Meta (признана экстремистской и запрещена в РФ)