Оглавление
Китайская компания Meituan, известная прежде всего как сервис доставки еды, совершила неожиданный прорыв в области искусственного интеллекта, выпустив открытую языковую модель LongCat-Flash с архитектурой Mixture-of-Experts. Модель с номинальными 560 миллиардами параметров демонстрирует конкурентоспособные результаты в бенчмарках и доступна под лицензией MIT.
Технические характеристики и производительность
LongCat-Flash использует инновационную архитектуру MoE, где на каждый токен активируется только 18,6–31,3 миллиарда параметров (в среднем около 27 миллиардов). Это обеспечивает баланс между масштабом и эффективностью вычислений.
Ключевые технологические инновации включают:
- Эксперты с нулевыми вычислениями в блоках MoE, позволяющие системе распределять вычислительный бюджет только там, где это необходимо
- Shortcut-connected MoE (ScMoE): перекрытие вычислений и коммуникаций для устранения узких мест масштабирования
- PID-контролируемое смещение экспертов: поддержание стабильной средней активации между токенами
- Механизмы эффективности обучения: включая передачу гиперпараметров от прокси-моделей
В тестах производительности LongCat-Flash-Chat показал впечатляющие результаты: 89,7% на MMLU, 96,4% на MATH500 и 73,2% на GPQA-diamond. В инструментальном использовании модель достигла 73,7% на τ²-Bench Telecom, превзойдя несколько более крупных закрытых моделей.
Экосистема моделей Meituan
Вслед за базовой моделью компания выпустила LongCat-Flash-Thinking — крупномасштабную открытую модель рассуждений, предназначенную для решения сложных задач. Модель доступна через API с бесплатным лимитом до 500 000 токенов в день с возможностью расширения до 5 миллионов.
Тот факт, что компания по доставке еды внезапно выпускает модель, конкурирующую с GPT-5, говорит о том, что барьеры входа в область ИИ продолжают снижаться. Теперь для создания современных моделей не обязательно быть специализированной AI-лабораторией — достаточно иметь ресурсы и инженерный талант. Это одновременно и восхищает, и немного пугает.
Стратегический поворот Meituan
Основанная в 2010 году Ван Сином, Meituan эволюционировала из сайта с групповыми скидками в один из доминирующих «супераппов» Китая, объединяющих локальные сервисы, ритейл и логистику. Компания насчитывает более 770 миллионов ежегодных транзакционных пользователей и поддерживает более 14,5 миллионов продавцов на своей платформе.
Финансово Meituan столкнулась с сильным сжатием маржи и резким падением прибыли на фоне острой внутренней конкуренции. Компания публично обязалась инвестировать «миллиарды» в ИИ и чиповые возможности по мере перехода к более технологически ориентированным предложениям.
Практическое развертывание и оптимизация
1 сентября 2025 года Meituan опубликовала подробный технический отчет о развертывании LongCat-Flash в масштабе с использованием SGLang. Отчет рассмотрел двойные проблемы пропускной способности и задержки в больших MoE-моделях.
Ключевые инновации развертывания включали:
- PD Disaggregation: разделение фаз предзаполнения и декодирования
- Single Batch Overlap (SBO): четырехэтапный конвейер выполнения
- Wide Expert Parallelism: увеличение параллелизма и размеров batch
- Multi-step overlapped scheduling: повышение утилизации GPU
- Multi-Token Prediction (MTP): оптимизация спекулятивного декодирования
Результатом стала система, способная работать со скоростью более 100 токенов в секунду на кластерах NVIDIA H800, при стоимости за токен менее половины от некоторых меньших аналогов.
Все модели Meituan доступны на Hugging Face и GitHub под лицензией MIT, что позволяет предприятиям по всему миру свободно использовать, модифицировать и развертывать их в коммерческих целях.
По сообщению VentureBeat, это предоставляет глобальному бизнесу еще одну мощную пару открытых LLM для рассмотрения.
Оставить комментарий