MoE

Новости

Математика MoE-моделей

Математика MoE-моделей раскрыта: что на самом деле означает 8x7B

Подробный разбор математики MoE-моделей: от расчета памяти до вычислительной сложности. Почему 8x7B на самом деле означает 13B активных параметров.

Проблемы масштабирования MoE-моделей: от теоретической эффективности к аппаратным ограничениям

Модели Mixture-of-Experts обещают эффективность, но сталкиваются с аппаратными ограничениями. Анализ проблем масштабирования и альтернативных решений от Cerebras.