Nvidia представила специализированный ускоритель Rubin CPX для этапа префилла в AI-инференсе, что может закрепить ее лидерство и заставить конкурентов пересматривать стратегии.
Google Cloud анонсировала рецепт дезагрегированного инференса LLM с NVIDIA Dynamo на AI Hypercomputer, позволяющий значительно ускорить обработку запросов за счет разделения вычислительных фаз.
Google Cloud анонсировала коммерческую доступность GKE Inference Gateway с новыми функциями оптимизации производительности и стоимости ML-инференса.
Huawei сталкивается с критической нехваткой памяти HBM для производства AI-чипов, что может серьезно ограничить китайские амбиции в искусственном интеллекте.
Тесты MLPerf Inference v5.1 показывают до 15.4% прироста производительности LLM на системе NVIDIA HGX B200 от Lambda, что подтверждает готовность инфраструктуры для корпоративного внедрения.
Nvidia анонсировала Rubin CPX — первый специализированный GPU для обработки миллионов токенов контекста в ИИ-моделях с производительностью 30 петафлопс.