Оглавление

Китайская компания Meituan, известная прежде всего как сервис доставки еды, совершила неожиданный прорыв в области искусственного интеллекта, выпустив открытую языковую модель LongCat-Flash с архитектурой Mixture-of-Experts. Модель с номинальными 560 миллиардами параметров демонстрирует конкурентоспособные результаты в бенчмарках и доступна под лицензией MIT.

Технические характеристики и производительность

LongCat-Flash использует инновационную архитектуру MoE, где на каждый токен активируется только 18,6–31,3 миллиарда параметров (в среднем около 27 миллиардов). Это обеспечивает баланс между масштабом и эффективностью вычислений.

Ключевые технологические инновации включают:

  • Эксперты с нулевыми вычислениями в блоках MoE, позволяющие системе распределять вычислительный бюджет только там, где это необходимо
  • Shortcut-connected MoE (ScMoE): перекрытие вычислений и коммуникаций для устранения узких мест масштабирования
  • PID-контролируемое смещение экспертов: поддержание стабильной средней активации между токенами
  • Механизмы эффективности обучения: включая передачу гиперпараметров от прокси-моделей

В тестах производительности LongCat-Flash-Chat показал впечатляющие результаты: 89,7% на MMLU, 96,4% на MATH500 и 73,2% на GPQA-diamond. В инструментальном использовании модель достигла 73,7% на τ²-Bench Telecom, превзойдя несколько более крупных закрытых моделей.

Экосистема моделей Meituan

Вслед за базовой моделью компания выпустила LongCat-Flash-Thinking — крупномасштабную открытую модель рассуждений, предназначенную для решения сложных задач. Модель доступна через API с бесплатным лимитом до 500 000 токенов в день с возможностью расширения до 5 миллионов.

Тот факт, что компания по доставке еды внезапно выпускает модель, конкурирующую с GPT-5, говорит о том, что барьеры входа в область ИИ продолжают снижаться. Теперь для создания современных моделей не обязательно быть специализированной AI-лабораторией — достаточно иметь ресурсы и инженерный талант. Это одновременно и восхищает, и немного пугает.

Стратегический поворот Meituan

Основанная в 2010 году Ван Сином, Meituan эволюционировала из сайта с групповыми скидками в один из доминирующих «супераппов» Китая, объединяющих локальные сервисы, ритейл и логистику. Компания насчитывает более 770 миллионов ежегодных транзакционных пользователей и поддерживает более 14,5 миллионов продавцов на своей платформе.

Финансово Meituan столкнулась с сильным сжатием маржи и резким падением прибыли на фоне острой внутренней конкуренции. Компания публично обязалась инвестировать «миллиарды» в ИИ и чиповые возможности по мере перехода к более технологически ориентированным предложениям.

Практическое развертывание и оптимизация

1 сентября 2025 года Meituan опубликовала подробный технический отчет о развертывании LongCat-Flash в масштабе с использованием SGLang. Отчет рассмотрел двойные проблемы пропускной способности и задержки в больших MoE-моделях.

Ключевые инновации развертывания включали:

  • PD Disaggregation: разделение фаз предзаполнения и декодирования
  • Single Batch Overlap (SBO): четырехэтапный конвейер выполнения
  • Wide Expert Parallelism: увеличение параллелизма и размеров batch
  • Multi-step overlapped scheduling: повышение утилизации GPU
  • Multi-Token Prediction (MTP): оптимизация спекулятивного декодирования

Результатом стала система, способная работать со скоростью более 100 токенов в секунду на кластерах NVIDIA H800, при стоимости за токен менее половины от некоторых меньших аналогов.

Все модели Meituan доступны на Hugging Face и GitHub под лицензией MIT, что позволяет предприятиям по всему миру свободно использовать, модифицировать и развертывать их в коммерческих целях.

По сообщению VentureBeat, это предоставляет глобальному бизнесу еще одну мощную пару открытых LLM для рассмотрения.