Новый фреймворк для обучения ИИ-агентов улучшает координацию в сложных задачах
Новый метод M-GRPO позволяет обучать команды ИИ-агентов с четким разделением ролей, улучшая координацию в сложных многоэтапных задачах на 10%.
Модель Qwen3 с 30B параметров и 3B активных
Новый метод M-GRPO позволяет обучать команды ИИ-агентов с четким разделением ролей, улучшая координацию в сложных многоэтапных задачах на 10%.