Оглавление

Исследователи Samsung создали нейросеть с рекордно малым количеством параметров, которая демонстрирует конкурентоспособные результаты в сложных задачах логического вывода. Модель Tiny Recursion Model (TRM) содержит всего 7 миллионов параметров, что в тысячи раз меньше современных флагманских решений, но при этом показывает сопоставимую производительность на специализированных тестах.

Революция в миниатюре

Алексия Жоликёр-Мартино, старший исследователь ИИ в Advanced Institute of Technology Samsung в Монреале, представила архитектуру, которая бросает вызов современной парадигме «чем больше — тем лучше». TRM использует технику рекурсивного рассуждения, когда модель последовательно уточняет свои ответы, достигая высокой точности без необходимости в гигантских вычислительных ресурсах.

Ключевые характеристики модели:

  • Всего 7 миллионов параметров против триллионов у конкурентов
  • Специализация на структурированных задачах: судоку, лабиринты, головоломки
  • Открытый исходный код под MIT License
  • Обучение с нуля без дообучения крупных базовых моделей

Это исследование — свежий глоток воздуха в индустрии, зацикленной на масштабировании любой ценой. Демонстрация того, что сложные задачи рассуждения можно решать элегантными методами вместо брутальной вычислительной силы, напоминает нам, что ИИ — это все еще наука, а не только инженерия. Особенно иронично, что такой прорыв приходит от Samsung — компании, известной своими массовыми производствами, а не минималистичными подходами.

Ограничения и специализация

Важно понимать, что TRM не является универсальной языковой моделью. Её сила проявляется в специфических доменах, таких как тест ARC-AGI benchmark, где задачи требуют абстрактного мышления и аналогий — того, что легко дается человеку, но сложно для ИИ.

Модель особенно эффективна в задачах с визуальными сетками, где необходимо распознавать паттерны и применять логические правила. Это делает её потенциально полезной для:

  • Автоматического решения головоломок
  • Оптимизации маршрутов в лабиринтах
  • Анализа структурированных данных
  • Образовательных приложений

Архитектурные инновации

TRM представляет собой радикальное упрощение по сравнению с иерархическими моделями рассуждений. Вместо сложных многоуровневых архитектур используется рекурсивный подход, где небольшая сеть последовательно обрабатывает и уточняет решение.

Как отмечает исследователь в социальной сети X: «Идея о том, что для решения сложных задач необходимо полагаться на массивные базовые модели, обученные за миллионы долларов крупными корпорациями, — это ловушка. Сейчас слишком много внимания уделяется эксплуатации LLM, а не разработке новых направлений».

Код модели уже доступен на GitHub, что позволяет исследователям и компаниям экспериментировать с этим подходом и адаптировать его для собственных нужд.

По материалам VentureBeat.