Китайская технологическая компания MiniMax представила свою новую разработку — модель M3, которая претендует на лидерство в сегменте систем с открытыми весами. Как сообщает The Decoder, новинка сочетает в себе выдающиеся способности к написанию кода, нативную мультимодальность и внушительное окно контекста объемом в один миллион токенов.
До сих пор подобные характеристики считались прерогативой закрытых проприетарных систем вроде GPT-5.5 или Claude Opus 4.7. Однако инженеры MiniMax внедрили архитектуру MiniMax Sparse Attention (MSA), которая позволяет обрабатывать огромные массивы данных, затрачивая в двадцать раз меньше вычислительных мощностей по сравнению с традиционными методами внимания.
Производительность на уровне лидеров индустрии
В ходе тестов на бенчмарке SWE-Bench Pro модель M3 показала результат в 59%, что ставит ее в один ряд с признанными гигантами и даже позволяет обходить некоторые версии Gemini 3.1 Pro в задачах программирования. В тестах на автономный веб-поиск BrowseComp новинка набрала 83,5 балла, продемонстрировав способность эффективно использовать инструменты и терминал.
Чтобы приблизить тестирование к реальным условиям разработки, создатели M3 использовали симуляционную среду. Модель обучалась не просто отвечать на разовые запросы, а вести многоступенчатое взаимодействие: уточнять требования, обсуждать варианты решений и корректировать свои действия в процессе. Это позволило M3 успешно справляться с задачами, требующими длительной концентрации.
В одном из внутренних экспериментов M3 самостоятельно воспроизвела научную работу по тонкой настройке больших языковых моделей. Система работала без вмешательства человека около 12 часов, сделав за это время 18 коммитов и подготовив 23 графика. Другим достижением стала оптимизация вычислительного ядра для графических процессоров Nvidia Hopper, где модель за сутки подняла эффективность использования оборудования с 7,6% до 71,3%.
Появление M3 с миллионным контекстом и открытыми весами — это не просто очередной релиз, а прямой вызов монополии закрытых лабораторий. Однако стоит помнить, что Sparse Attention — это всегда компромисс между скоростью и точностью внимания, а заявленная автономность в 24 часа на практике часто упирается в накопление ошибок. Пока индустрия восторгается цифрами, разработчикам предстоит проверить, не превращается ли этот «миллион токенов» в кашу при решении нестандартных задач. Впрочем, для open-weight сегмента это определенно прыжок выше головы.
Технологический фундамент и доступность
Секрет экономичности M3 кроется в пересмотренном механизме работы с видеопамятью. Вместо того чтобы при каждом запросе заново загружать блоки данных из KV-кэша, алгоритм MSA группирует запросы, которым нужен один и тот же блок. Это позволяет считывать информацию из памяти последовательно и один раз, что ускоряет обработку входных данных более чем в девять раз.
Обучение модели проводилось на массиве данных объемом 100 триллионов токенов. Особое внимание уделили «перемежающимся» данным, где текст и изображения тесно переплетены. По мнению разработчиков, именно такой подход к обучению обеспечил модели глубокое понимание мультимодального контента, а не просто поверхностное распознавание образов.
На данный момент MiniMax M3 уже доступна через API компании, причем стоимость зависит от длины контекста — запросы свыше 512 000 токенов тарифицируются отдельно. Самое важное для сообщества произойдет в ближайшие десять дней: MiniMax обещает опубликовать веса модели и подробный технический отчет на Hugging Face и GitHub, делая мощный инструмент доступным для локального развертывания.
Оставить комментарий