TurboQuant от Google: сжатие KV-кэша LLM в 6 раз

Исследователи Google разработали TurboQuant — новый алгоритм квантования, который радикально сокращает объем KV-кэша и ускоряет работу языковых моделей.

Оглавление

Геометрический подход и борьба с искажениями
Результаты тестов и рыночные перспективы

Проблема «памяти» в больших языковых моделях (LLM) постепенно становится более критическим барьером, чем нехватка вычислительной мощности. Основное узкое место при обработке длинных контекстов — разрастание KV-кэша, который требует колоссальных объемов пропускной способности памяти. Как сообщает MarkTechPost, исследовательская группа Google предложила решение в виде TurboQuant — алгоритма квантования, который сокращает объем кэша до 6 раз и ускоряет инференс до 8 раз.

В отличие от классических методов векторного квантования (VQ), таких как Product Quantization (PQ), разработка Google является «data-oblivious». Это означает, что алгоритму не требуется предварительное обучение на конкретных наборах данных или трудоемкая калибровка. TurboQuant оптимизирован под архитектуру современных GPU, используя векторизованные операции вместо медленного бинарного поиска, что делает его пригодным для динамических нагрузок в реальном времени.

Геометрический подход и борьба с искажениями

Технологический фундамент TurboQuant опирается на применение случайного вращения к входным векторам. Эта манипуляция преобразует распределение координат в предсказуемую бета-распределенную форму, превращая их в практически независимые величины. Такая математическая элегантность позволяет свести сложную многомерную задачу к серии простых скалярных квантований, которые решаются один раз для нужной разрядности.

Особое внимание инженеры Google уделили сохранению точности скалярного произведения, которое критически важно для механизмов внимания (attention) в трансформерах. Обычное квантование часто вносит систематическую ошибку (bias). TurboQuant решает это через двухэтапный процесс: сначала минимизируется среднеквадратичная ошибка (MSE), а затем применяется 1-битное преобразование Джонсона-Линденштраусса для коррекции остаточного вектора.

Математическая стройность TurboQuant впечатляет, но индустрии стоит поумерить восторг: пока алгоритм блестяще справляется с синтетическими тестами, реальная эксплуатация на специфических доменах может выявить скрытые деградации. Экономия памяти в 5-6 раз — это мощный рычаг для облачных провайдеров, однако замена обучения на «data-oblivious» подход всегда несет риск потери нюансов в сложных логических цепочках. Google создал отличный костыль для железа, которое не поспевает за аппетитами моделей, но это оптимизация следствия, а не причины.

Результаты тестов и рыночные перспективы

В ходе испытаний на моделях Llama-3.1-8B и Ministral-7B алгоритм продемонстрировал впечатляющую живучесть. При четырехкратном сжатии модели сохранили 100% точность извлечения данных в тесте Needle-In-A-Haystack на контекстах до 104 тысяч токенов. Для достижения полной нейтральности качества при максимальном сжатии система использует стратегию обработки выбросов, выделяя больше бит на наиболее значимые каналы данных.

С точки зрения операционной эффективности TurboQuant практически обнуляет время индексации. В задачах поиска по ближайшим соседям, где традиционные методы требуют сотен секунд на обучение k-means, TurboQuant справляется за миллисекунды. Сравнительная таблица индексации для различных размерностей векторов наглядно иллюстрирует этот разрыв:

Метод	Размерность d=1536	Размерность d=3072
Product Quantization	239.75 с	494.42 с
TurboQuant	0.0013 с	0.0021 с

Для разработчиков инфраструктуры ИИ это означает возможность обслуживать значительно больше пользователей на том же количестве ускорителей H100 или A100. Учитывая текущий дефицит вычислительных мощностей и стоимость владения инфраструктурой, переход на подобные алгоритмы сжатия станет обязательным стандартом для коммерческих API в ближайшие два года.

Новости

Google представила алгоритм TurboQuant, сокращающий объем KV-кэша без потери точности

Геометрический подход и борьба с искажениями

Результаты тестов и рыночные перспективы

Еще интереснее

Новый бенчмарк BullshitBench проверяет способность ИИ распознавать абсурдные задачи

ИИ-модели при анализе кода стали реже ошибаться, но чаще бездействовать из-за осторожности

Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode

Иллюзия незаменимости: навыки «вайб-кодинга» не спасают от сокращений в BigTech

Оставить комментарий