NVIDIA открывает DFlash: новый подход к ускорению вывода языковых моделей
NVIDIA открыла исходный код DFlash — технологии, которая заменяет последовательное спекулятивное декодирование параллельной генерацией блоков, ускоряя инференс до 15 раз.
NVIDIA открыла исходный код DFlash — технологии, которая заменяет последовательное спекулятивное декодирование параллельной генерацией блоков, ускоряя инференс до 15 раз.