Оглавление

Производительность крупных языковых моделей выросла на 15.4% в новых тестах MLPerf Inference v5.1, согласно данным Lambda. Результаты показывают, что система на базе NVIDIA HGX B200 с 8 GPU демонстрирует значительное улучшение показателей по сравнению с предыдущим поколением оборудования.

Ключевые результаты тестирования

В ходе тестирования были оценены три модели в шести сценариях:

  • Llama 2 70B и Llama 3.1 405B в сценариях Offline и Server
  • Stable Diffusion XL для генерации изображений
  • Пять из шести тестов показали улучшение производительности от +1.6% до +15.4%

Сравнительная таблица результатов

Модель Сценарий v5.1 Результат v5.0 Лучший Δ против v5.0
llama2-70b-99 Offline 102725.00 Токенов/с 98858.00 Токенов/с +3.9%
llama2-70b-99 Server 99993.90 Токенов/с 98443.30 Токенов/с +1.6%
llama3.1-405b Offline 1648.60 Токенов/с 1538.17 Токенов/с +7.2%
llama3.1-405b Server 1246.79 Токенов/с 1080.31 Токенов/с +15.4%
stable-diffusion-xl Offline 32.57 Образцов/с 30.38 Образцов/с +7.2%
stable-diffusion-xl Server 28.46 Запросов/с 28.92 Запросов/с -1.6%

Технические детали тестовой среды

Все тесты проводились на идентичной конфигурации:

  • Система: NVIDIA HGX B200 (8xB200-180GB)
  • Процессор: Dual Intel Xeon Platinum 8750 (56 ядер)
  • Фреймворк: TensorRT 10.11, CUDA 12.9
  • Точность вычислений: FP4 для весов LLM, FP8 для UNet в SDXL

Прирост в 15.4% для Llama 3.1 405B в серверном сценарии — это не просто цифра из пресс-релиза. В реальных условиях это означает либо снижение затрат на инфраструктуру, либо возможность обслуживать больше пользователей без апгрейда железа. Особенно впечатляет, что такие результаты достигнуты на FP4 — индустрия постепенно учится жить в условиях нехватки памяти без потери качества.

Значение для корпоративного сектора

Результаты MLPerf подтверждают готовность инфраструктуры Lambda для промышленного использования. Системы 1-Click Clusters масштабируются от 16 до 1536 GPU с гибкими условиями аренды — от недельных до многолетних резервирований.

Для стартапов это означает возможность тестирования моделей без долгосрочных обязательств, а для крупных предприятий — проверенную производительность перед масштабированием на тысячи пользователей.

По материалам Lambda.