Оглавление

Исследователи Apple в сотрудничестве с Калифорнийским университетом в Сан-Диего разработали новый метод улучшения работы больших языковых моделей (LLM), который позволяет нейросетям тестировать несколько вариантов решения задачи параллельно перед выдачей финального ответа. Как сообщает издание 9to5Mac, представленный фреймворк под названием LaDiR (Latent Diffusion Enhances LLMs for Text Reasoning) демонстрирует значительный прирост эффективности в математических вычислениях и написании программного кода.

В основе архитектуры LaDiR лежит попытка объединить два фундаментально разных подхода к генерации данных: диффузию и авторегрессию. Если классические модели вроде GPT предсказывают токены последовательно, один за другим, то диффузионные модели работают с массивами данных целиком, постепенно очищая их от «шума». Разработчики Apple решили использовать сильные стороны обоих миров, применяя диффузию на этапе скрытого планирования ответа, а авторегрессию — для формирования итогового текста.

Механика параллельного мышления

Процесс работы LaDiR напоминает черновик исследователя, который одновременно проверяет несколько гипотез. Вместо того чтобы сразу строить цепочку слов, модель создает серию скрытых блоков рассуждений. Каждый такой блок начинается как случайный набор данных, который в ходе итераций превращается в логический шаг. Важно, что система принудительно заставляет эти «мыслительные пути» расходиться, предотвращая их преждевременное слияние в одно потенциально ошибочное решение.

Когда этап внутреннего анализа завершен и модель находит наиболее устойчивую логическую конструкцию, управление передается стандартному авторегрессионному механизму. LaDiR не является самостоятельной моделью, это надстройка, которую можно интегрировать в существующие архитектуры. В ходе тестов исследователи успешно применили этот метод к Llama 3.1 8B и Qwen3-8B-Base, что позволило им превзойти стандартные показатели точности в сложных задачах.

Метод эффективно расширяет пространство поиска решений, но его зависимость от вычислительных ресурсов на этапе планирования ставит под вопрос масштабируемость для мобильных чипов Apple. Это впечатляющий лабораторный успех, который, однако, лишь маскирует неспособность текущих LLM к истинному пониманию логики, подменяя её более сложным перебором вероятностей. Впрочем, для генерации кода этого вполне достаточно.

Результаты бенчмарков и практическая польза

Эффективность нового подхода подтверждается цифрами на классических бенчмарках. В математических задачах LaDiR показал более высокую точность, чем существующие методы тонкой настройки, особенно в задачах, выходящих за рамки обучающей выборки. В тестах на программирование, таких как HumanEval, система выдавала более надежный код, минимизируя логические ошибки, которые часто допускают менее «задумчивые» модели.

  • В математических тестах достигнута повышенная устойчивость к нестандартным условиям.
  • На бенчмарке HumanEval зафиксирован заметный отрыв от стандартных методов Fine-tuning.
  • В логических играх, таких как Countdown, модель нашла большее количество правильных решений, чем базовые системы.

Хотя в узкоспециализированных задачах LaDiR пока уступает моделям, обученным под конкретный тип головоломок, его универсальность делает его перспективным инструментом для повседневных задач. Это еще один шаг к созданию ИИ, который умеет «сначала подумать, а потом сказать», что в условиях современного переизбытка галлюцинаций у нейросетей кажется весьма полезным навыком.