Google выводит на рынок готовые решения для масштабирования ML-инференса
Google Cloud анонсировала коммерческую доступность GKE Inference Gateway с новыми функциями оптимизации производительности и стоимости ML-инференса.
Новости о технике и железе для искусственного интеллекта. GPU, TPU, специализированные AI-чипы от NVIDIA, AMD, Intel. Облачные платформы для ML, обзоры программного обеспечения, фреймворков и инструментов разработки. Аппаратное обеспечение для обучения и инференса нейросетей. Сравнения производительности и рекомендации по выбору.
Google Cloud анонсировала коммерческую доступность GKE Inference Gateway с новыми функциями оптимизации производительности и стоимости ML-инференса.
Huawei сталкивается с критической нехваткой памяти HBM для производства AI-чипов, что может серьезно ограничить китайские амбиции в искусственном интеллекте.
Тесты MLPerf Inference v5.1 показывают до 15.4% прироста производительности LLM на системе NVIDIA HGX B200 от Lambda, что подтверждает готовность инфраструктуры для корпоративного внедрения.
Nvidia анонсировала Rubin CPX — первый специализированный GPU для обработки миллионов токенов контекста в ИИ-моделях с производительностью 30 петафлопс.
AWS анонсировала второе поколение AI-чипов Trainium2 и Inferentia2 с многократным ростом производительности для обучения и инференса моделей машинного обучения.
NVIDIA на IAA Mobility представила облачно-автомобильную платформу ИИ для автономного вождения с акцентом на безопасность и партнерства с ведущими автопроизводителями.