Alibaba Qwen3.7-Max: 35 часов автономной оптимизации кода

Модель Qwen3.7-Max продемонстрировала возможности автономного агента, самостоятельно оптимизировав код для ускорителей Alibaba и показав высокие результаты в бенчмарках планирования.

Оглавление

Автономия в действии: 35 часов и десятикратное ускорение
Контроль качества и долгосрочное планирование

Команда разработчиков Alibaba Qwen представила свою новейшую разработку — модель Qwen3.7-Max, ориентированную на решение сложных автономных задач без участия человека. Согласно сообщению The Decoder, эта проприетарная модель продемонстрировала способность к непрерывной работе в течение 35 часов, самостоятельно оптимизируя код для специализированного чипа компании.

В отличие от ранних версий, которые выпускались с открытым исходным кодом, Qwen3.7-Max доступна исключительно через API Alibaba Cloud Model Studio. Модель спроектирована как полноценный агент, способный интегрироваться в такие инструменты, как Claude Code или OpenClaw, для автоматизации разработки программного обеспечения и офисных процессов.

В ходе ключевого эксперимента нейросеть получила задачу оптимизировать ядро внимания для открытого ПО SGLang. Работа велась на облачном инстансе с ускорителями T-Head-ZW-M890, разработанными полупроводниковым подразделением Alibaba. Примечательно, что модель не имела предварительных данных об этой архитектуре, документации или примеров кода, опираясь лишь на эталонную реализацию на языке Triton.

Автономия в действии: 35 часов и десятикратное ускорение

За время своего «марафона» Qwen3.7-Max выполнила 1158 вызовов инструментов и провела 432 теста ядра. Модель самостоятельно выявляла ошибки компиляции и находила узкие места в производительности. Результатом стал десятикратный прирост скорости работы кода по сравнению с исходным вариантом, что значительно превосходит показатели конкурентов от DeepSeek или Kimi.

Методология обучения модели также претерпела изменения: теперь каждая задача разделяется на саму цель, инструментальную среду и валидатор. Это позволяет ИИ вырабатывать универсальные стратегии решения, не привязываясь к конкретному окружению. В тестах KernelBench L3 модель успешно создавала ускоренные ядра в 96% случаев, вплотную приблизившись к результатам Anthropic Opus 4.6.

Пока Alibaba рапортует о победах в кастомных бенчмарках, реальная гибкость агентов в непредсказуемой корпоративной среде остается под вопросом. Мы видим отличный инструмент для внутренней оптимизации, который, впрочем, рискует остаться «вещью в себе» из-за закрытости архитектуры. Впечатляющий инженерный подвиг, который, к сожалению, закрепляет тренд на огораживание ИИ-садов.

Контроль качества и долгосрочное планирование

Интересной деталью стало использование Qwen3.7-Max в роли «сторожевого пса» во время собственного обучения. Модель провела более 10 000 проверок, выявляя попытки «взлома наград» (reward hacking), когда обучаемая нейросеть пытается найти лазейки в правилах вместо честного решения задачи. ИИ-контролер смог обнаружить более 1600 подобных случаев, самостоятельно создав 13 правил детекции.

Для оценки навыков долгосрочного планирования использовался бенчмарк YC-Bench, имитирующий годовой цикл жизни стартапа. Модель управляла персоналом, анализировала контракты и боролась за маржинальность. Qwen3.7-Max показала доход в 2,08 миллиона долларов, что почти в два раза выше результата ее предшественницы, версии 3.6-Plus.

На общепринятых тестах, таких как SWE-Verified (80.4 балла) и математических бенчмарках GPQA Diamond, разработка Alibaba идет наравне с лидерами рынка от OpenAI и Anthropic. Несмотря на то, что часть данных основана на собственных тестах компании, возможности модели по управлению робототехникой и сложным кодингом подтверждают серьезные амбиции китайского технологического гиганта в сфере автономных агентов.

Новости

Модель Qwen3.7-Max от Alibaba смогла кодить 35 часов непрерывно

Автономия в действии: 35 часов и десятикратное ускорение

Контроль качества и долгосрочное планирование

Еще интереснее

Стоимость генерации в GPT-5.6 может отличаться в разы из-за 3 моделей и уровней мышления

Новая GPT-5.6 Sol демонстрирует производительность Claude Fable 5 за треть от его стоимости

Meta* представила модель Muse Spark 1.1, оптимизированную под агентов

xAI представила Grok 4.5 — модель уровня GPT 5.5, но в разы дешевле

Оставить комментарий