Оглавление
Исследователи из Georgia Tech и Microsoft представили фреймворк SwiReasoning, который учит большие языковые модели переключаться между разными режимами рассуждения для повышения точности и эффективности использования токенов.
Как работает переключение режимов
SwiReasoning автоматически переключается между двумя режимами рассуждения:
- Цепочка мыслей (chain-of-thought) — пошаговое решение задачи с явным текстовым выводом
- Скрытое рассуждение (latent reasoning) — внутренние вычисления в векторном пространстве модели без текстового вывода
Решение о переключении принимается на основе измерения энтропии вероятностей токенов. Низкая энтропия сигнализирует об уверенности модели, высокая — о неопределенности. При падении неопределенности система переходит в явный режим для фиксации хода мыслей, при росте — возвращается в скрытый для тестирования альтернативных решений.

Чтобы предотвратить хаотичное переключение, SwiReasoning использует асимметричные временные задержки: переход к явному режиму происходит мгновенно, а возврат к скрытому требует минимального количества шагов.
Защита от бесконечных размышлений
Для предотвращения бесконечных циклов размышлений система устанавливает лимит на количество переключений. При достижении половины лимита модель получает подсказку завершить рассуждения, а при превышении максимума — принудительно выдает ответ.
Элегантное решение классической проблемы ИИ — как найти баланс между тщательным обдумыванием и практической эффективностью. Вместо того чтобы заставлять модель всегда думать вслух или всегда молча, SwiReasoning дает ей интеллектуальный переключатель, который работает как опытный шахматист: иногда нужно продумать ход до конца, иногда — отложить расчет и довериться интуиции.
Результаты тестирования
Исследователи протестировали SwiReasoning на трех моделях размером менее 10 миллиардов параметров: Qwen3-8B, Qwen3-1.7B и дистиллированной версии Deepseek R1 с 8 миллиардами параметров.

На пяти бенчмарках математических и научных задач — от элементарных до уровня выпускников университетов — система показала улучшение точности до 2,8% по математике и 2% по науке, с наибольшим приростом на самых сложных задачах.
Эффективность использования токенов
При ограничениях на количество токенов преимущества SwiReasoning становятся еще заметнее. Фреймворк улучшил эффективность использования токенов (точность на потраченный токен) на 56-79%, а в некоторых случаях — в 6,8 раз по сравнению со стандартной цепочкой мыслей.

В экспериментах с множественными попытками SwiReasoning часто находил правильный ответ значительно быстрее. В одном случае система достигла максимальной точности всего за 13 попыток вместо 46, сократив количество итераций на 72%.
Практическое применение
SwiReasoning не требует дополнительного обучения и может быть интегрирован как замена стандартным функциям генерации без изменения архитектуры модели или параметров. Реализация доступна на GitHub и может использоваться вместе с другими методами оптимизации, такими как оптимизация памяти или ускоренное декодирование.
По материалам The Decoder.
Оставить комментарий