GPU

Новости

NVIDIA Tesla V100 запускает LLM

Старый серверный чип NVIDIA Tesla V100 удивляет в тестах на инференсе LLM

Энтузиасты адаптировали серверную NVIDIA Tesla V100 для домашнего ПК, достигнув скорости в 130 токенов в секунду, что выше показателей современных RTX 3060.

Unsloth дообучает LLM

Unsloth представил библиотеку, позволяющую дообучать LLM даже на домашнем компьютере

Стартап Unsloth представил кастомные ядра CUDA, которые позволяют дообучать крупные языковые модели вроде Qwen3.6-27B на обычных игровых видеокартах с 24 ГБ памяти.

Kubernetes prefill и decode

Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode

Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.

Доминирование Nvidia заканчивается

Доминирование Nvidia на рынке обучения ИИ не гарантирует успех в эру инференса

Индустрия ИИ переходит от обучения моделей к инференсу, что ставит под угрозу монополию Nvidia и требует новых архитектурных решений.

Qwen в LLM-Scaler для Arc

Intel расширяет поддержку моделей Qwen в стеке LLM-Scaler для графики Arc

Intel расширила возможности проекта LLM-Scaler, добавив поддержку моделей семейства Qwen3.5 и ASR-модели для распознавания речи. Обновление позволяет запускать современные нейросети на потребительских видеокартах Arc с использованием vLLM и Docker.

Google Cloud запускает виртуальные машины Flex-start VMs

Google Cloud запускает виртуальные машины Flex-start для доступа к дефицитным GPU

Google Cloud анонсировал общедоступную версию Flex-start VMs — виртуальных машин с очередью доступа к GPU продолжительностью до двух часов для ML-задач.