Zhipu AI выпустила GLM-5.1: прорыв в автономном кодинге

Zhipu AI представила GLM-5.1 — модель, которая умеет переосмысливать свои ошибки в коде через сотни итераций и обходит конкурентов в специфических тестах.

Оглавление

Циклы размышлений против тупиковых алгоритмов
Слабые места и реальная производительность

Китайская компания Zhipu AI выпустила новую модель GLM-5.1, которая обещает изменить подход к решению сложных программных задач. Как сообщает The Decoder, главная особенность новинки заключается в способности критически оценивать собственные действия и менять стратегию «на лету», если выбранный путь ведет в тупик.

В отличие от многих современных LLM, которые часто зацикливаются на неверном решении, GLM-5.1 умеет проводить сотни итераций, анализируя тысячи вызовов инструментов. На тесте SWE-Bench Pro модель набрала 58,4%, что позволило ей немного опередить такие признанные системы, как GPT-5.4 и Claude Opus 4.6, по крайней мере в рамках этого конкретного бенчмарка.

Циклы размышлений против тупиковых алгоритмов

Разработчики из Zhipu AI обратили внимание на фундаментальную проблему: даже мощные модели часто сдаются, когда сталкиваются с препятствием, которое не поддается стандартным паттернам. Внутренние тесты компании показали, что GLM-5.1 может работать над одной задачей часами. При оптимизации векторной базы данных модель совершила более 600 итераций, в процессе которых шесть раз кардинально меняла архитектурный подход.

Любопытным примером стал эксперимент по созданию десктопного окружения Linux «с нуля» через один промпт. Пока другие модели ограничивались созданием визуальной заглушки, GLM-5.1 в течение восьми часов методично дописывала недостающие компоненты: от файлового менеджера до системного монитора и калькулятора. Это демонстрирует не столько чистый интеллект, сколько завидное упорство, которого так не хватает автономным агентам.

Слабые места и реальная производительность

Несмотря на успехи в написании кода, в вопросах общей логики и глубоких научных знаний модель пока не дотягивает до лидеров рынка. В тесте Humanity’s Last Exam она показала результат в 31%, заметно отстав от Gemini 3.1 Pro. Похожая ситуация наблюдается в управлении бизнес-симуляциями, где конкуренты от Anthropic демонстрируют более высокую финансовую эффективность.

Способность GLM-5.1 к саморефлексии впечатляет, но заставляет задуматься о цене такого прогресса. Мы видим классический экстенсивный путь: вместо элегантного решения с первой попытки модель берет задачу измором, тратя огромные вычислительные ресурсы на тысячи итераций. Это напоминает джуниора, который готов переписывать код бесконечно, пока тот не заработает, но всё еще путается в сложной логике. Технологический прорыв здесь граничит с неэффективностью, превращая разработку в процесс бесконечного перебора вариантов.

На текущий момент GLM-5.1 доступна под лицензией MIT на платформе Hugging Face. Для локального развертывания поддерживаются фреймворки vLLM и SGLang. Zhipu AI позиционирует новинку как «первый шаг» к созданию по-настоящему автономных агентов, способных поддерживать связность работы на длинных дистанциях без участия человека.

Рынок автономного кодинга становится всё более тесным. Помимо Zhipu AI, свои решения активно продвигают Alibaba с моделью Qwen3.5 и Moonshot AI. Пока эксперты спорят о качестве кода, генерируемого такими «старательными» агентами, индустрия явно движется в сторону моделей, которые умеют не только писать функции, но и признавать, что они зашли не туда.

Новости

Zhipu AI представила GLM-5.1 — модель, способную сотни раз переосмысливать свои ошибки

Циклы размышлений против тупиковых алгоритмов

Слабые места и реальная производительность

Еще интереснее

Google Gemini внедряет интерактивную визуализацию данных прямо в интерфейс чата

Anthropic ограничила доступ к своей новой модели Mythos AI из-за рисков безопасности

Meta* представила Muse Spark — новую флагманскую модель, умеющую экономить ресурсы

Stability AI представила Brand Studio — инструмент для корпоративного дизайна

Оставить комментарий