Оглавление

По сообщению HuggingFace, с появлением моделей вроде OpenAI o1 в 2024 году произошла революция в подходе к работе языковых моделей — концепция вычислительных ресурсов во время тестирования позволила моделям тратить больше токенов на сложные задачи, значительно улучшая качество ответов.

Проблема выбора режима работы

С развитием гибридных моделей, таких как Qwen3 с возможностью переключения между режимами мышления, возникла новая задача — как автоматически определить, когда нужно включать режим размышлений, а когда можно обойтись быстрым ответом. Использование медленного, ресурсоемкого режима для простых задач стало раздражающим фактором для пользователей.

Идея автоматического роутера выглядит элегантным решением проблемы, которая становилась все более актуальной с каждым новым релизом моделей от OpenAI и других вендоров. Вместо ручного переключения флажков — умная система сама решает, когда думать, а когда стрелять ответами без лишних раздумий.

Архитектура решения

Для создания маршрутизатора потребовалось собрать парные данные: для каждого пользовательского запроса генерировались два ответа — с включенным и выключенным режимом мышления, с последующей оценкой, какой из подходов дает лучший результат.

Ключевой подход:

  • Использование одной базовой модели с разными настройками мышления
  • Оценка результатов с помощью модели вознаграждения
  • Создание классификатора для автоматического принятия решений

Сбор и разметка данных

Для обучения использовались два типа датасетов:

Открытые датасеты

Эти наборы содержат реальные пользовательские запросы, что делает их максимально приближенными к реальным сценариям использования.

Закрытые датасеты

Для закрытых задач с известными правильными ответами разметка была более простой — если режим мышления давал правильный ответ, а быстрый режим ошибался, запрос помечался как требующий мышления.

Процесс обучения

После сбора и разметки данных исследователь получил около 70 000 образцов для обучения классификатора. Были протестированы различные архитектуры, включая BERT-варианты и Qwen3-0.6B.

Наиболее эффективными оказались:

  • Qwen3-0.6B
  • mmBERT-small
Сравнение результатов тестирования WildChat

Источник: huggingface.co

Обученная модель доступна для тестирования в Hugging Face Space.

Результаты и перспективы

Модель успешно прошла тестирование на открытых датасетах и новых математических бенчмарках 2025 года, демонстрируя способность эффективно принимать решения о необходимости использования режима мышления.

Этот подход может стать стандартом для всех гибридных моделей будущего — вместо того чтобы заставлять пользователей вручную выбирать между скоростью и качеством, система сама будет принимать оптимальные решения, экономя и время, и вычислительные ресурсы.

Исследование показывает, что автоматическая маршрутизация запросов между разными режимами работы языковых моделей — это не просто удобная функция, а необходимость в эпоху, когда вычислительная эффективность становится таким же важным параметром, как и качество ответов.