Китайская технологическая компания Meituan объявила о создании масштабной языковой модели LongCat-2.0, параметры которой достигают впечатляющей отметки в 1,6 триллиона. Как сообщает издание The Decoder, этот проект стал важным прецедентом, поскольку обучение полностью проходило на отечественных вычислительных мощностях без использования графических процессоров от Nvidia.
Для тренировки модели была задействована инфраструктура из более чем 50 000 специализированных интегральных схем (ASIC), произведенных внутри страны. В процессе обучения LongCat-2.0 обработала свыше 35 триллионов токенов. Примечательно, что команда разработчиков LongCat сформировалась лишь в 2023 году, успев за это время пройти путь от первых прототипов до системы мирового уровня.
Результаты тестирования показывают неоднозначную, но любопытную картину конкуренции. В тестах на программирование SWE-bench Pro (59,5) и SWE-bench Multilingual (77.3) китайская разработка опередила такие известные модели, как Gemini 3.1 Pro и GPT-5.5. Однако она все еще уступает лидерам в лице Claude Opus версий 4.7 и 4.8, а в задачах на общую логику и научные знания разрыв с флагманами OpenAI и Google остается существенным.
С точки зрения хронологии развития проекта, Meituan демонстрирует завидную скорость: первая версия модели была представлена в конце прошлого года, а текущая итерация уже претендует на место в высшей лиге. Это подчеркивает, что ограничения на экспорт высокотехнологичных чипов, действующие с 2022 года, не стали непреодолимым барьером для развития китайских LLM.
Без независимой верификации на HuggingFace мы видим лишь фасад успеха, за которым могут скрываться проблемы с энергоэффективностью или специфическая оптимизация под конкретные бенчмарки. Китай научился собирать огромные «железные» кучи, но их реальный КПД в дикой природе пока остается под вопросом.
Несмотря на достигнутые показатели в IFEval (90.0) и GPQA-diamond (88.9), экспертное сообщество сохраняет осторожность в оценках. Meituan предпочла не раскрывать конкретного производителя чипов, на которых базируется кластер, что оставляет простор для дискуссий о реальной архитектуре системы и ее масштабируемости для будущих задач.
Отсутствие LongCat-2.0 в публичных репозиториях, таких как HuggingFace, на текущий момент затрудняет полноценный аудит возможностей модели со стороны независимых исследователей. Тем не менее сам факт создания функционирующего триллионника на базе 50 тысяч домашних процессоров является четким сигналом о формировании в Китае автономного технологического стека.
Оставить комментарий