Cerebras в 5 раз быстрее NVIDIA Blackwell в тестах GPT-OSS

Сравнительные тесты показывают пятикратное преимущество архитектуры Cerebras над новейшими GPU NVIDIA Blackwell в инференсе модели GPT-OSS 120B.

Оглавление

Открытое противостояние: GPT-OSS 120B
- Производительность: преимущество за Cerebras
Не только быстро, но и выгодно по цене
Cerebras — по-прежнему самый быстрый инференс в 2025 году

Год назад компания Cerebras представила свой API для инференса, установив новые стандарты производительности в области искусственного интеллекта. В то время как провайдеры на основе GPU генерировали от 50 до 100 токенов в секунду, Cerebras обеспечивал от 1000 до 3000 токенов в секунду для различных моделей с открытыми весами, таких как Llama, Qwen и GPT-OSS.

Скептики тогда утверждали, что превзойти GPU поколения Hopper от NVIDIA — это одно, но настоящая проверка наступит со следующим поколением Blackwell. Теперь, в конце 2025 года, облачные провайдеры наконец-то развертывают системы GB200 Blackwell, и пришло время вернуться к вопросу: кто быстрее в AI-инференсе — NVIDIA или Cerebras?

Открытое противостояние: GPT-OSS 120B

GPT-OSS-120B от OpenAI сегодня является ведущей моделью с открытыми весами, разработанной американской компанией, широко используемой благодаря своим мощным возможностям рассуждения и программирования. Согласно тестам Artificial Analysis, большинство поставщиков сегодня запускают GPT-OSS-120B в диапазоне от 100 до 300 токенов в секунду, что отражает производительность широко распространенных GPU NVIDIA H100.

Производительность: преимущество за Cerebras

График сравнения цены и производительности между системами Cerebras и Baseten для GPT-OSS 120B

Источник: www.cerebras.ai

В прошлом месяце Baseten опубликовал первые результаты работы GPT-OSS-120B на новейшем GPU Blackwell от NVIDIA, достигнув 650 токенов в секунду — лучший результат, когда-либо достигнутый на GPU на тот момент. Для достижения этого рубежа Baseten запустил модель на восьми GPU GB200, соединенных через NVLink, используя Tensor Parallel 8 (TP8) для распределения модели, TensorRT-LLM и NVIDIA Dynamo для динамической оптимизации графа, а также EAGLE-3 спекулятивное декодирование для ускорения генерации токенов. Это был впечатляющий результат, демонстрирующий пиковую производительность Blackwell в готовом к производству облаке инференса.

С этим результатом Baseten не только превзошел всех других поставщиков GPU на рынке, но и обогнал такие компании, как Groq, которые полагались на скорость как на свое основное преимущество. Blackwell показал, что преимущество в 2-3 раза над GPU быстро теряется, когда NVIDIA обновляет свое оборудование ежегодно.

В заслугу Baseten следует поставить то, что они включили Cerebras в свои результаты, показав, что наше оборудование запускает модель GPT-OSS-120B со скоростью более 3000 токенов в секунду. Это стало возможным благодаря нашей wafer-scale архитектуре, которая хранит всю модель в памяти на кристалле, устраняя ограничения пропускной способности GPU. Примечательно, что Cerebras Wafer Scale Engine 3, выпущенный в 2024 году, до сих пор превосходит новейшее поколение Blackwell от NVIDIA почти в 5 раз — подчеркивая долговременное преимущество вычислительной архитектуры, специально созданной для крупномасштабного AI-инференса.

Не только быстро, но и выгодно по цене

Cerebras всегда был известен своей скоростью — но нас часто спрашивают: стоит ли он своих денег? В большинстве высокопроизводительных продуктов скорость подчиняется закону убывающей отдачи. Ferrari стоит в 10 раз больше, чем Camry, но едва ли в 3 раза быстрее. Так где же находится Cerebras на этой кривой?

График сравнения скорости работы чипов Cerebras и NVIDIA в тестах GPT-OSS 120B

Источник: www.cerebras.ai

Cerebras обеспечивает 3000 токенов в секунду по цене $0,75 за миллион токенов, в то время как Baseten обеспечивает 650 токенов в секунду по цене $0,50 за миллион токенов — соотношение цена-производительность составляет 4000 против 1300. Другими словами, Cerebras лишь немного дороже, но при этом в несколько раз быстрее — обратный пример Ferrari–Camry. Вы платите не в 10 раз больше за маргинальное улучшение; вы платите немного больше за огромный скачок в производительности.

Архитектурное преимущество wafer-scale подхода Cerebras становится особенно очевидным на больших моделях типа GPT-OSS-120B, где традиционные GPU упираются в ограничения межчиповой коммуникации. Пока NVIDIA пытается компенсировать это сложными системами типа NVLink, Cerebras просто исключает эту проблему целиком — вся модель помещается в памяти одного кристалла. Ирония в том, что Blackwell, при всех своих улучшениях, все еще борется с фундаментальными ограничениями GPU-архитектуры, в то время как Cerebras переосмыслил саму концепцию AI-ускорителя.

Cerebras — по-прежнему самый быстрый инференс в 2025 году

Nvidia Blackwell — это существенное обновление по сравнению с Hopper, улучшающее максимальную скорость GPU-инференса в 2-3 раза и обгоняющее конкурентов с небольшими чипами AI, таких как Groq. Cerebras — единственная архитектура, которая превосходит Nvidia, с подавляющим преимуществом в 5 раз в флагманской модели AI с открытыми весами от OpenAI. Мы с нетерпением ждем возможности снова обратиться к таблицам лидеров в 2026 году.

Источник новости: Cerebras

Новости

У Cerebras пятикратное превосходство над NVIDIA Blackwell в тестах GPT-OSS 120B

Открытое противостояние: GPT-OSS 120B

Производительность: преимущество за Cerebras

Не только быстро, но и выгодно по цене

Cerebras — по-прежнему самый быстрый инференс в 2025 году

Еще интереснее

Центры обработки данных для ИИ: архитектура, энергопотребление и экологические вызовы

Ironwood TPU: архитектура Google для нового поколения ИИ-моделей

Семь ключевых преимуществ сельскохозяйственных дронов в 2026 году

Запуск больших трансформерных моделей на мобильных устройствах становится реальностью

Оставить комментарий