Оглавление

В мире больших языковых моделей наметился важный тренд — масштабирование во время тестирования (Test-Time Scaling), но вычислительные затраты при работе с длинными контекстами растут экспоненциально. Команда Hugging Face представила решение этой проблемы — гибридную архитектуру Ling 2.0 Linear, сочетающую разреженные MoE-структуры с линейным вниманием.

График производительности модели Ring Flash Linear 2.0 от Hugging Face
Источник: huggingface.co

Сегодня открыты для общего доступа две высокоэффективные модели: Ring-flash-linear-2.0 и Ring-mini-linear-2.0. Одновременно выпущены два собственных оператора: FP8 Fused Operator и Linear Attention Inference Fused Operator.

Благодаря синергии архитектурных оптимизаций и высокопроизводительных операторов, стоимость инференса этих моделей в сценариях глубокого мышления составляет всего 1/10 от аналогичных плотных моделей, что более чем на 50% эффективнее оригинальной серии Ring.

Сравнение производительности

Следующее сравнение показывает скорость генерации между Ring-mini-linear-2.0 (использующей гибридную линейную архитектуру) и Ring-mini-2.0 (со стандартным механизмом внимания).

Демо-видео сравнения доступно для просмотра.

Условия тестирования: Один H20, размер батча = 256, длина генерации около 16к токенов. Ring-mini-linear-2.0 сокращает общее время генерации на 40% по сравнению с Ring-mini-2.0.

Архитектура Ling 2.0 Linear

Диаграмма линейной архитектуры Ling 2.0
Источник: huggingface.co

Гибридная линейная архитектура Ling 2.0 Linear специально разработана для двух будущих трендов в больших языковых моделях: масштабирования длины контекста и масштабирования во время тестирования.

Архитектура использует гибридную структуру линейного и стандартного внимания, преодолевая слабость чисто линейных механизмов внимания в способности к запоминанию. Увеличивая долю линейного внимания, модель достигает почти линейной вычислительной сложности, что значительно снижает затраты на обучение и инференс в сценариях высокой конкурентности и длинных контекстов.

Системные эксперименты позволили внести несколько улучшений в слои линейного внимания:

  • Добавление Rotary Positional Embedding (RoPE) к входам q и k линейного внимания
  • Применение группового и неразделяемого RMSNorm для выхода линейного внимания

Эксперименты показывают, что эти кажущиеся незначительными изменения приводят к более высокой стабильности обучения и лучшей экстраполяционной способности.

Архитектурные оптимизации всегда были святым Граалем в ML — все хотят больше производительности за меньшие деньги. Заявленное 10-кратное улучшение эффективности выглядит впечатляюще, но настоящий тест наступит, когда эти модели попадут в производственные среды. История знает много примеров, когда лабораторные показатели разбивались о суровую реальность продакшена.

Высокопроизводительные операторы

В последние годы FP8 mixed-precision training привлекает широкое внимание. Однако во время обучения моделей обнаружилось, что большинство существующих решений FP8 в основном фокусируются на экономии VRAM без значительного улучшения фактической вычислительной эффективности.

Для решения этой проблемы разработан более эффективный FP8 Fused Operator через тонкое слияние операторов и адаптивные техники повторного квантования. Это существенно повышает вычислительную эффективность FP8 mixed-precision training, достигая ускорения в 1.57x и 1.77x на двух моделях соответственно.

На стороне инференса, хотя линейное внимание по своей природе более вычислительно эффективно, существующие решения часто не поддерживают высокоэффективные фреймворки типа SGLang и vLLM v1. Поэтому выпущенные модели адаптированы для таких фреймворков, как SGLang и vLLM v1.

Также разработан более эффективный Linear Attention Fused Operator (см. PR: sglang/pull/10917), поддерживающий больше режимов инференса и дополнительно повышающий пропускную способность движка вывода.

Благодаря архитектуре Ling 2.0 Linear и высокопроизводительным операторам, Ring-mini-linear-2.0 и Ring-flash-linear-2.0 достигают почти линейной временной сложности и постоянной пространственной сложности, максимизируя эффективность инференса! На этапах предзаполнения и декодирования общее преимущество по сравнению с предыдущим GQA быстро расширяется с увеличением длин ввода и вывода, причем стоимость сверхдлинного вывода составляет всего 1/10 от плотных моделей!

По материалам HuggingFace