Оглавление

NVIDIA продолжает переопределять границы возможного в области искусственного интеллекта, представляя архитектуру Blackwell как полноценную платформу для создания AI-фабрик промышленного масштаба, сообщает NVIDIA Blog.

Масштабирование для триллионов параметров

Современные фронтирные модели ИИ уже оперируют сотнями миллиардов параметров и обслуживают почти миллиард пользователей еженедельно. Следующее поколение моделей ожидается с более чем триллионом параметров, обучаемых на десятках триллионов токенов данных из текстовых, изображенческих и видео-датасетов.

Для удовлетворения этого спроса необходимо масштабирование дата-центров — объединение тысяч компьютеров для распределения работы. Однако значительно большей производительности и энергоэффективности можно достичь сначала вертикальным масштабированием: созданием более мощного компьютера.

AI-фабрики как машины новой промышленной революции

AI-инференс — наиболее сложная форма вычислений на сегодняшний день. Эти фабрики требуют инфраструктуры, способной адаптироваться, масштабироваться и максимизировать каждый доступный вычислительный ресурс.

Новой единицей дата-центра становится NVIDIA GB200 NVL72 — система масштаба стойки, функционирующая как единый массивный GPU.

Рождение суперчипа и революция межсоединений

В основе архитектуры лежит суперчип NVIDIA Grace Blackwell, объединяющий два GPU Blackwell с одним CPU NVIDIA Grace. Их слияние в единый вычислительный модуль повышает производительность на порядок благодаря технологии NVIDIA NVLink chip-to-chip.

Создание суперчипа требует симфонии процессов: создания, резки, сборки и инспекции.

Преодоление узких мест производительности

Масштабирование этой производительности на множество суперчипов было невозможно с предыдущими сетевыми технологиями. NVIDIA создала новый тип межсоединения, чтобы предотвратить узкие места и обеспечить ИИ в масштабе.

Коммутатор NVIDIA NVLink Switch объединяет GB200 NVL72 с точно спроектированной сетью из более чем 5000 высокопроизводительных медных кабелей, соединяя 72 GPU через 18 вычислительных лотков для передачи данных с ошеломляющей скоростью 130 ТБ/с.

Две мили медного провода точно нарезаются, измеряются, собираются и тестируются для создания невероятно быстрого коммутатора NVIDIA NVLink Switch.

Картридж spine инспектируется перед установкой. Включенный spine может переместить весь объем данных интернета менее чем за секунду.

Операционная система для AI-фабрик

Интеграция всего этого продвинутого оборудования и программного обеспечения, вычислений и сетей позволяет системам GB200 NVL72 открывать новые возможности для ИИ в масштабе.

Каждая стойка весит полторы тонны и содержит более 600 000 деталей, две мили проводов и миллионы строк кода. Она функционирует как один гигантский виртуальный GPU, делая возможным фабричный AI-инференс, где важна каждая наносекунда и ватт.

Blackwell — это не просто очередной шаг в эволюции GPU, а фундаментальный сдвиг в парадигме вычислений. Когда каждый грамм меди и каждый милливатт энергии имеют значение, мы видим переход от «просто быстрых чипов» к инженерным системам, где оптимизирована каждая компонента. Вопрос уже не в том, «насколько быстр чип», а в том, «насколько эффективно вся фабрика производит интеллект».

Глобальное производство и масштабирование

NVIDIA деконструировала GB200 NVL72, чтобы партнеры и клиенты могли конфигурировать и строить свои собственные системы NVL72. Каждая система NVL72 — это двухтонный суперкомпьютер из 1,2 миллиона деталей.

Системы NVL72 производятся на более чем 150 заводах по всему миру с 200 технологическими партнерами.

От облачных гигантов до системных интеграторов, партнеры по всему миру производят системы NVIDIA Blackwell NVL72.

Объединение в единую экосистему

Десятки тысяч систем Blackwell NVL72 объединяются для создания AI-фабрик. Работать вместе недостаточно — они должны работать как единое целое.

Коммутаторы NVIDIA Spectrum-X Ethernet и Quantum-X800 InfiniBand делают это единое усилие возможным на уровне дата-центра.

Каждый GPU в системе NVL72 подключен непосредственно к фабричной сети данных и ко всем другим GPU в системе. Системы GB200 NVL72 предлагают 400 Гбит/с interconnect Ethernet или InfiniBand с использованием NVIDIA ConnectX-7 NICs.

Коммутаторы NVIDIA Quantum-X800, NVLink Switch и Spectrum-X Ethernet объединяют одну или многие системы NVL72 для функционирования как единое целое.

Оптимизация коммуникаций и управления

Масштабирование AI-фабрик требует многих инструментов, каждый из которых служит одной цели: неограниченной параллельной коммуникации для каждой AI-нагрузки на фабрике.

NVIDIA BlueField-3 DPUs повышают производительность ИИ, разгружая и ускоряя не-AI задачи, которые поддерживают работу фабрики: симфонию сетей, хранения и безопасности.

NVIDIA GB200 NVL72 питает AI-фабрику от CoreWeave, партнера NVIDIA Cloud. Дата-центр теперь — это компьютер. NVIDIA Dynamo — его операционная система. Dynamo оркестрирует и координирует запросы AI-инференса через большой парк GPU, чтобы обеспечить работу AI-фабрик с наименьшей возможной стоимостью для максимизации продуктивности и дохода.

Он может добавлять, удалять и перемещать GPU между нагрузками в ответ на всплески пользовательской активности и маршрутизировать запросы к GPU, наиболее подходящим для работы.

Colossus, AI-суперкомпьютер xAI. Созданный за 122 дня, он вмещает более 200 000 GPU NVIDIA — пример полноценной масштабируемой архитектуры.

Blackwell — больше чем чип. Это двигатель AI-фабрик. Крупнейшие планируемые вычислительные кластеры мира строятся на архитектурах Blackwell и Blackwell Ultra — с производством примерно 1000 стоек систем NVIDIA GB300 еженедельно.