Оглавление

Исследователи Google Research представили парадигму Nested Learning, которая рассматривает модели машинного обучения как набор вложенных оптимизационных задач для решения проблемы катастрофического забывания, сообщает Google Research.

Проблема катастрофического забывания

Последнее десятилетие ознаменовалось впечатляющим прогрессом в машинном обучении, но фундаментальные проблемы остаются. Одной из ключевых является непрерывное обучение — способность модели активно приобретать новые знания и навыки с течением времени, не забывая старые.

Когда речь идет о непрерывном обучении и самосовершенствовании, человеческий мозг остается золотым стандартом. Он адаптируется через нейропластичность — способность изменять свою структуру в ответ на новый опыт и обучение. Без этой способности человек ограничен непосредственным контекстом, подобно антероградной амнезии.

В современных больших языковых моделях мы видим аналогичное ограничение: их знания ограничены либо непосредственным контекстом входного окна, либо статической информацией, изученной во время предварительного обучения.

Новый подход: вложенное обучение

Простой подход — постоянное обновление параметров модели новыми данными — часто приводит к катастрофическому забыванию, когда изучение новых задач жертвует эффективностью на старых задачах.

В статье «Nested Learning: The Illusion of Deep Learning Architectures», представленной на NeurIPS 2025, исследователи вводят концепцию Nested Learning, которая преодолевает этот разрыв. Этот подход рассматривает единую модель машинного обучения не как непрерывный процесс, а как систему взаимосвязанных многоуровневых задач обучения, которые оптимизируются одновременно.

Парадигма Nested Learning — это не просто очередное улучшение алгоритмов, а фундаментальный сдвиг в том, как мы представляем себе архитектуры глубокого обучения. Вместо того чтобы рассматривать архитектуру и алгоритм обучения как отдельные сущности, мы начинаем видеть их как разные уровни одной и той же оптимизационной системы. Это напоминает нам, что иногда самые прорывные идеи возникают не из создания чего-то нового, а из переосмысления того, что у нас уже есть.

Как работает Nested Learning

Nested Learning раскрывает, что сложная модель машинного обучения на самом деле представляет собой набор согласованных, взаимосвязанных оптимизационных задач, вложенных друг в друга или работающих параллельно. Каждая из этих внутренних задач имеет свой собственный поток контекста — свой собственный набор информации, из которой она пытается учиться.

Эта перспектива подразумевает, что существующие методы глубокого обучения работают, по сути, сжимая свои внутренние потоки контекста. Что более важно, Nested Learning раскрывает новое измерение для проектирования моделей, позволяя создавать обучающие компоненты с более глубокой вычислительной глубиной.

Сравнение волн биологического мозга и нейропластичности с моделями Nested Learning
Источник: research.google.com

Чтобы проиллюстрировать эту парадигму, исследователи рассматривают концепцию ассоциативной памяти — способности сопоставлять и вспоминать одну вещь на основе другой.

  • Они показывают, что сам процесс обучения, в частности процесс обратного распространения ошибки, может быть смоделирован как ассоциативная память.
  • Аналогично, ключевые архитектурные компоненты, такие как механизм внимания в трансформерах, также могут быть формализованы как простые модули ассоциативной памяти.

Практическое применение

Перспектива Nested Learning немедленно дает нам принципиальные способы улучшения существующих алгоритмов и архитектур:

Глубокие оптимизаторы

Поскольку Nested Learning рассматривает оптимизаторы как модули ассоциативной памяти, это позволяет применять к ним принципы из перспективы ассоциативной памяти. Исследователи наблюдали, что многие стандартные оптимизаторы полагаются на простую скалярную схожесть, чье обновление не учитывает, как различные образцы данных соотносятся друг с другом.

Системы континуальной памяти

В стандартном трансформере модель последовательности действует как кратковременная память, удерживая непосредственный контекст, в то время как прямые нейронные сети действуют как долговременная память, храня знания предварительного обучения. Парадигма Nested Learning расширяет эту концепцию до того, что исследователи называют «системой континуальной памяти», где память рассматривается как спектр модулей, каждый из которых обновляется с разной, специфической частотой.

Hope: самоизменяющаяся архитектура

В качестве доказательства концепции исследователи использовали принципы Nested Learning для проектирования Hope — варианта архитектуры Titans. Hope — это самоизменяющаяся рекуррентная архитектура, которая может использовать неограниченные уровни обучения в контексте и также дополнена блоками CMS для масштабирования до больших контекстных окон.

Архитектура может оптимизировать свою собственную память через самореферентный процесс, создавая архитектуру с бесконечными, зацикленными уровнями обучения.