Оглавление

Новое исследование, проведённое специалистами Google AI совместно с Университетом Вирджинии, предлагает радикально новый подход к оценке и оптимизации работы больших языковых моделей (LLM). Вместо традиционного наращивания длины «цепочки рассуждений» (Chain-of-Thought, CoT), которое часто приводит к снижению точности, учёные вводят метрику Deep-Thinking Ratio (DTR), позволяющую значительно улучшить производительность и вдвое сократить затраты на инференс. Об этом сообщает MarkTechPost.

Исследование ставит под сомнение распространённое убеждение, что для решения более сложных задач LLM требуется генерировать больше токенов. Анализ показал, что простая длина ответа имеет отрицательную корреляцию с точностью (r = -0.59), что указывает на «переосмысление» и генерацию избыточных, неинформативных токенов, которые лишь увеличивают вычислительные расходы.

От «длины» к «глубине»: новая метрика DTR

Исследовательская группа утверждает, что истинное «мышление» модели происходит внутри её многослойной архитектуры, а не только в конечном выводе. Когда модель предсказывает токен, она обрабатывает данные через серию трансформерных слоёв. Для «поверхностных» токенов предсказание стабилизируется на ранних слоях, тогда как для «глубоко мыслящих» токенов предсказание значительно меняется на более глубоких слоях.

Для измерения этой «глубины» команда использует технику, которая позволяет отслеживать внутренние «черновики» модели на каждом слое. Они вычисляют дивергенцию Йенсена-Шеннона (Jensen-Shannon Divergence, JSD) между распределением вероятностей на промежуточном слое и на конечном слое. Токен считается «глубоко мыслящим», если его предсказание стабилизируется только в «позднем режиме» — например, в последних 15% слоёв.

Think@n: эффективность и экономия

На основе этой метрики был разработан новый подход к масштабированию производительности ИИ во время инференса, названный Think@n. В отличие от стандартного метода Self-Consistency (Cons@n), который генерирует множество полных ответов и выбирает лучший путём голосования, Think@n использует «раннюю остановку».

Модель начинает генерировать несколько вариантов ответов, но после всего 50 начальных токенов система рассчитывает DTR для каждого кандидата. Неперспективные варианты с низким DTR немедленно отбрасываются, и только кандидаты с высоким показателем «глубокого мышления» доводятся до конца.

Результаты и перспективы

Тестирование на математическом бенчмарке AIME 25 показало впечатляющие результаты. Think@n достиг точности в 94,7% при среднем расходе в 155,4 тысячи токенов, тогда как традиционный Cons@n показал 92,7% точности при расходе в 307,6 тысячи токенов. Таким образом, Think@n не только превзошёл стандартный метод по точности, но и сократил затраты на инференс на 49%.

Предложенный Google подход к «глубине мышления» — это не просто оптимизация, а фундаментальный пересмотр метрик эффективности LLM. Долгое время индустрия наивно приравнивала длину рассуждений к их качеству, игнорируя внутреннюю динамику моделей. DTR демонстрирует, что истинная интеллектуальная работа происходит на глубоких слоях, а не в избыточном многословии. Однако, универсальность метрики DTR и метода Think@n для различных архитектур и задач LLM ещё предстоит доказать. Это важный шаг к более эффективному и доступному ИИ, но он также подчёркивает, насколько поверхностным было наше понимание «мышления» машин до сих пор.

Ключевые выводы исследования подчёркивают, что количество токенов является плохим предиктором точности, а «глубоко мыслящие» токены, чьи внутренние предсказания значительно пересматриваются на более глубоких слоях модели, определяют истинные усилия. DTR демонстрирует надёжную положительную корреляцию с точностью (r = 0.683), значительно превосходя метрики, основанные на длине или уверенности. Метод Think@n позволяет масштабировать производительность, значительно сокращая затраты за счёт раннего отсева неперспективных генераций.