Китайская компания Zhipu AI выпустила новую модель GLM-5.1, которая обещает изменить подход к решению сложных программных задач. Как сообщает The Decoder, главная особенность новинки заключается в способности критически оценивать собственные действия и менять стратегию «на лету», если выбранный путь ведет в тупик.
В отличие от многих современных LLM, которые часто зацикливаются на неверном решении, GLM-5.1 умеет проводить сотни итераций, анализируя тысячи вызовов инструментов. На тесте SWE-Bench Pro модель набрала 58,4%, что позволило ей немного опередить такие признанные системы, как GPT-5.4 и Claude Opus 4.6, по крайней мере в рамках этого конкретного бенчмарка.
Циклы размышлений против тупиковых алгоритмов
Разработчики из Zhipu AI обратили внимание на фундаментальную проблему: даже мощные модели часто сдаются, когда сталкиваются с препятствием, которое не поддается стандартным паттернам. Внутренние тесты компании показали, что GLM-5.1 может работать над одной задачей часами. При оптимизации векторной базы данных модель совершила более 600 итераций, в процессе которых шесть раз кардинально меняла архитектурный подход.
Любопытным примером стал эксперимент по созданию десктопного окружения Linux «с нуля» через один промпт. Пока другие модели ограничивались созданием визуальной заглушки, GLM-5.1 в течение восьми часов методично дописывала недостающие компоненты: от файлового менеджера до системного монитора и калькулятора. Это демонстрирует не столько чистый интеллект, сколько завидное упорство, которого так не хватает автономным агентам.
Слабые места и реальная производительность
Несмотря на успехи в написании кода, в вопросах общей логики и глубоких научных знаний модель пока не дотягивает до лидеров рынка. В тесте Humanity’s Last Exam она показала результат в 31%, заметно отстав от Gemini 3.1 Pro. Похожая ситуация наблюдается в управлении бизнес-симуляциями, где конкуренты от Anthropic демонстрируют более высокую финансовую эффективность.
Способность GLM-5.1 к саморефлексии впечатляет, но заставляет задуматься о цене такого прогресса. Мы видим классический экстенсивный путь: вместо элегантного решения с первой попытки модель берет задачу измором, тратя огромные вычислительные ресурсы на тысячи итераций. Это напоминает джуниора, который готов переписывать код бесконечно, пока тот не заработает, но всё еще путается в сложной логике. Технологический прорыв здесь граничит с неэффективностью, превращая разработку в процесс бесконечного перебора вариантов.
На текущий момент GLM-5.1 доступна под лицензией MIT на платформе Hugging Face. Для локального развертывания поддерживаются фреймворки vLLM и SGLang. Zhipu AI позиционирует новинку как «первый шаг» к созданию по-настоящему автономных агентов, способных поддерживать связность работы на длинных дистанциях без участия человека.
Рынок автономного кодинга становится всё более тесным. Помимо Zhipu AI, свои решения активно продвигают Alibaba с моделью Qwen3.5 и Moonshot AI. Пока эксперты спорят о качестве кода, генерируемого такими «старательными» агентами, индустрия явно движется в сторону моделей, которые умеют не только писать функции, но и признавать, что они зашли не туда.
Оставить комментарий