Оглавление
Команда разработчиков Alibaba Qwen представила свою новейшую разработку — модель Qwen3.7-Max, ориентированную на решение сложных автономных задач без участия человека. Согласно сообщению The Decoder, эта проприетарная модель продемонстрировала способность к непрерывной работе в течение 35 часов, самостоятельно оптимизируя код для специализированного чипа компании.
В отличие от ранних версий, которые выпускались с открытым исходным кодом, Qwen3.7-Max доступна исключительно через API Alibaba Cloud Model Studio. Модель спроектирована как полноценный агент, способный интегрироваться в такие инструменты, как Claude Code или OpenClaw, для автоматизации разработки программного обеспечения и офисных процессов.
В ходе ключевого эксперимента нейросеть получила задачу оптимизировать ядро внимания для открытого ПО SGLang. Работа велась на облачном инстансе с ускорителями T-Head-ZW-M890, разработанными полупроводниковым подразделением Alibaba. Примечательно, что модель не имела предварительных данных об этой архитектуре, документации или примеров кода, опираясь лишь на эталонную реализацию на языке Triton.
Автономия в действии: 35 часов и десятикратное ускорение
За время своего «марафона» Qwen3.7-Max выполнила 1158 вызовов инструментов и провела 432 теста ядра. Модель самостоятельно выявляла ошибки компиляции и находила узкие места в производительности. Результатом стал десятикратный прирост скорости работы кода по сравнению с исходным вариантом, что значительно превосходит показатели конкурентов от DeepSeek или Kimi.
Методология обучения модели также претерпела изменения: теперь каждая задача разделяется на саму цель, инструментальную среду и валидатор. Это позволяет ИИ вырабатывать универсальные стратегии решения, не привязываясь к конкретному окружению. В тестах KernelBench L3 модель успешно создавала ускоренные ядра в 96% случаев, вплотную приблизившись к результатам Anthropic Opus 4.6.
Пока Alibaba рапортует о победах в кастомных бенчмарках, реальная гибкость агентов в непредсказуемой корпоративной среде остается под вопросом. Мы видим отличный инструмент для внутренней оптимизации, который, впрочем, рискует остаться «вещью в себе» из-за закрытости архитектуры. Впечатляющий инженерный подвиг, который, к сожалению, закрепляет тренд на огораживание ИИ-садов.
Контроль качества и долгосрочное планирование
Интересной деталью стало использование Qwen3.7-Max в роли «сторожевого пса» во время собственного обучения. Модель провела более 10 000 проверок, выявляя попытки «взлома наград» (reward hacking), когда обучаемая нейросеть пытается найти лазейки в правилах вместо честного решения задачи. ИИ-контролер смог обнаружить более 1600 подобных случаев, самостоятельно создав 13 правил детекции.
Для оценки навыков долгосрочного планирования использовался бенчмарк YC-Bench, имитирующий годовой цикл жизни стартапа. Модель управляла персоналом, анализировала контракты и боролась за маржинальность. Qwen3.7-Max показала доход в 2,08 миллиона долларов, что почти в два раза выше результата ее предшественницы, версии 3.6-Plus.
На общепринятых тестах, таких как SWE-Verified (80.4 балла) и математических бенчмарках GPQA Diamond, разработка Alibaba идет наравне с лидерами рынка от OpenAI и Anthropic. Несмотря на то, что часть данных основана на собственных тестах компании, возможности модели по управлению робототехникой и сложным кодингом подтверждают серьезные амбиции китайского технологического гиганта в сфере автономных агентов.
Оставить комментарий