Проблемы масштабирования MoE-моделей: от теоретической эффективности к аппаратным ограничениям
Модели Mixture-of-Experts обещают эффективность, но сталкиваются с аппаратными ограничениями. Анализ проблем масштабирования и альтернативных решений от Cerebras.