Оглавление
Производительность крупных языковых моделей выросла на 15.4% в новых тестах MLPerf Inference v5.1, согласно данным Lambda. Результаты показывают, что система на базе NVIDIA HGX B200 с 8 GPU демонстрирует значительное улучшение показателей по сравнению с предыдущим поколением оборудования.
Ключевые результаты тестирования
В ходе тестирования были оценены три модели в шести сценариях:
- Llama 2 70B и Llama 3.1 405B в сценариях Offline и Server
- Stable Diffusion XL для генерации изображений
- Пять из шести тестов показали улучшение производительности от +1.6% до +15.4%
Сравнительная таблица результатов
Модель | Сценарий | v5.1 Результат | v5.0 Лучший | Δ против v5.0 |
---|---|---|---|---|
llama2-70b-99 | Offline | 102725.00 Токенов/с | 98858.00 Токенов/с | +3.9% |
llama2-70b-99 | Server | 99993.90 Токенов/с | 98443.30 Токенов/с | +1.6% |
llama3.1-405b | Offline | 1648.60 Токенов/с | 1538.17 Токенов/с | +7.2% |
llama3.1-405b | Server | 1246.79 Токенов/с | 1080.31 Токенов/с | +15.4% |
stable-diffusion-xl | Offline | 32.57 Образцов/с | 30.38 Образцов/с | +7.2% |
stable-diffusion-xl | Server | 28.46 Запросов/с | 28.92 Запросов/с | -1.6% |
Технические детали тестовой среды
Все тесты проводились на идентичной конфигурации:
- Система: NVIDIA HGX B200 (8xB200-180GB)
- Процессор: Dual Intel Xeon Platinum 8750 (56 ядер)
- Фреймворк: TensorRT 10.11, CUDA 12.9
- Точность вычислений: FP4 для весов LLM, FP8 для UNet в SDXL
Прирост в 15.4% для Llama 3.1 405B в серверном сценарии — это не просто цифра из пресс-релиза. В реальных условиях это означает либо снижение затрат на инфраструктуру, либо возможность обслуживать больше пользователей без апгрейда железа. Особенно впечатляет, что такие результаты достигнуты на FP4 — индустрия постепенно учится жить в условиях нехватки памяти без потери качества.
Значение для корпоративного сектора
Результаты MLPerf подтверждают готовность инфраструктуры Lambda для промышленного использования. Системы 1-Click Clusters масштабируются от 16 до 1536 GPU с гибкими условиями аренды — от недельных до многолетних резервирований.
Для стартапов это означает возможность тестирования моделей без долгосрочных обязательств, а для крупных предприятий — проверенную производительность перед масштабированием на тысячи пользователей.
По материалам Lambda.
Оставить комментарий