Оглавление

Nvidia представила специализированный ускоритель Rubin CPX, разработанный исключительно для этапа «префилла» в AI-инференсе. Согласно отчету SemiAnalysis, этот шаг может закрепить лидерство Nvidia и заставить конкурентов вроде AMD вернуться к чертежным доскам.

Почему инференс неэффективен

Инференс в больших языковых моделях состоит из двух основных этапов. Фаза префилла — генерация первого токена из промпта — требует больших вычислительных мощностей, но не нуждается в высокой пропускной способности памяти. Фаза декодирования — генерация последующих токенов — работает наоборот: нагружает пропускную способность памяти, но требует меньше вычислений.

SemiAnalysis утверждает, что запускать префилл на современных высокопроизводительных GPU с дорогой высокоскоростной памятью (HBM) нерационально. Для префилла критична производительность вычислений (FLOPS), в то время как дорогая пропускная способность памяти часто простаивает. Именно эту неэффективность и призван решить Rubin CPX.

Rubin CPX: меньше памяти, больше эффективности

Rubin CPX оптимизирован для плотных вычислений со значительно меньшей пропускной способностью, чем универсальные GPU. Он предлагает 20 PFLOPS вычислений FP4 в сочетании с пропускной способностью памяти 2 ТБ/с и 128 ГБ памяти GDDR7. Для сравнения, ожидается, что стандартный GPU Rubin R200 будет обеспечивать 33,3 PFLOPS с 288 ГБ HBM4 и колоссальной пропускной способностью 20,5 ТБ/с.

Отказавшись от HBM в пользу более дешевой GDDR7 и сократив использование продвинутой упаковки, SemiAnalysis оценивает, что производство Rubin CPX обходится примерно в четыре раза дешевле, чем R200. Nvidia также заменила высокоскоростной интерконнект NVLink на PCIe Gen 6, что считается достаточным для конвейерных задач префилла и дополнительно снижает стоимость.

Nvidia снова демонстрирует стратегическое превосходство, а не просто техническое. Пока конкуренты пытаются догнать их по номинальной производительности, они уже переписывают правила игры, оптимизируя всю систему под конкретные задачи. Это уровень мышления, до которого другим еще расти и расти.

Конкуренты под давлением

SemiAnalysis предупреждает, что переход Nvidia к распределенному обслуживанию ставит конкурентов в сложное положение. AMD была на грани того, чтобы догнать масштабируемую архитектуру Rubin с своей системой MI400. Однако без специализированного чипа для префилла AMD будет поставлять оборудование с более высокой общей стоимостью владения для workloads инференса. И с увеличением пропускной способности памяти R200 до 20,5 ТБ/с одно из преимуществ AMD в MI400 уже исчезло.

Крупные игроки, такие как Google, AWS и Meta*, находятся в лучшем положении для разработки собственных специализированных чипов для префилла, но необходимость делать это создает еще одну задержку в их усилиях достичь паритета с Nvidia. SemiAnalysis предполагает, что стратегия Nvidia — инновации не только на уровне чипов, но и на уровне всей системы — теперь задает направление для всего рынка. Остальным придется либо адаптироваться к правилам Nvidia, либо рисковать дальнейшим отставанием.

По материалам The Decoder

* Meta (признана экстремистской и запрещена в РФ)