Исследователи Samsung создали нейросеть с рекордно малым количеством параметров, которая демонстрирует конкурентоспособные результаты в сложных задачах логического вывода. Модель Tiny Recursion Model (TRM) содержит всего 7 миллионов параметров, что в тысячи раз меньше современных флагманских решений, но при этом показывает сопоставимую производительность на специализированных тестах.
Революция в миниатюре
Алексия Жоликёр-Мартино, старший исследователь ИИ в Advanced Institute of Technology Samsung в Монреале, представила архитектуру, которая бросает вызов современной парадигме «чем больше — тем лучше». TRM использует технику рекурсивного рассуждения, когда модель последовательно уточняет свои ответы, достигая высокой точности без необходимости в гигантских вычислительных ресурсах.
Ключевые характеристики модели:
- Всего 7 миллионов параметров против триллионов у конкурентов
- Специализация на структурированных задачах: судоку, лабиринты, головоломки
- Открытый исходный код под MIT License
- Обучение с нуля без дообучения крупных базовых моделей
Это исследование — свежий глоток воздуха в индустрии, зацикленной на масштабировании любой ценой. Демонстрация того, что сложные задачи рассуждения можно решать элегантными методами вместо брутальной вычислительной силы, напоминает нам, что ИИ — это все еще наука, а не только инженерия. Особенно иронично, что такой прорыв приходит от Samsung — компании, известной своими массовыми производствами, а не минималистичными подходами.
Ограничения и специализация
Важно понимать, что TRM не является универсальной языковой моделью. Её сила проявляется в специфических доменах, таких как тест ARC-AGI benchmark, где задачи требуют абстрактного мышления и аналогий — того, что легко дается человеку, но сложно для ИИ.
Модель особенно эффективна в задачах с визуальными сетками, где необходимо распознавать паттерны и применять логические правила. Это делает её потенциально полезной для:
- Автоматического решения головоломок
- Оптимизации маршрутов в лабиринтах
- Анализа структурированных данных
- Образовательных приложений
Архитектурные инновации
TRM представляет собой радикальное упрощение по сравнению с иерархическими моделями рассуждений. Вместо сложных многоуровневых архитектур используется рекурсивный подход, где небольшая сеть последовательно обрабатывает и уточняет решение.
Как отмечает исследователь в социальной сети X: «Идея о том, что для решения сложных задач необходимо полагаться на массивные базовые модели, обученные за миллионы долларов крупными корпорациями, — это ловушка. Сейчас слишком много внимания уделяется эксплуатации LLM, а не разработке новых направлений».
Код модели уже доступен на GitHub, что позволяет исследователям и компаниям экспериментировать с этим подходом и адаптировать его для собственных нужд.
По материалам VentureBeat.
Оставить комментарий