Titans и MIRAS для долгосрочной памяти ИИ

Команда Google представила архитектуру Titans и фреймворк MIRAS, позволяющие ИИ-моделям эффективно обрабатывать длинные контексты и обновлять память на лету, улучшая понимание и синтез информации.

Оглавление

Архитектура Titans: Обучение новому контексту в реальном времени
Фреймворк MIRAS: Единый взгляд на моделирование последовательностей
Выход за рамки парадигмы среднеквадратической ошибки

По сообщению Google Research Blog, команда разработчиков представила архитектуру Titans и фреймворк MIRAS, которые позволяют моделям искусственного интеллекта работать быстрее и обрабатывать огромные контексты, обновляя ядро памяти на лету.

Архитектура Titans: Обучение новому контексту в реальном времени

Эффективная система обучения нуждается в отдельных, но взаимосвязанных модулях памяти, аналогично разделению кратковременной и долгосрочной памяти в человеческом мозге. В то время как механизмы внимания идеальны для точной кратковременной памяти, Titans вводит новый модуль долгосрочной памяти на основе многослойного перцептрона, способный сжимать большие объемы информации без потери ключевых деталей. Модель не просто записывает, а понимает и синтезирует весь материал.

Ключевой элемент — так называемая «метрика сюрприза», где модель фиксирует значительные расхождения между текущей памятью и новым вводом. Если новый элемент не удивляет, он не сохраняется в долгосрочной памяти; если же он ломает паттерн, как случайная картинка банановой кожуры в серьезном отчете, то приоритет отдается его хранению.

Диаграмма, иллюстрирующая нейронную архитектуру с тремя слоями: Контекстная память (обучение), Ядро (обучение в контексте) и Постоянная память (фиксированные веса).

Источник: www.research.google

Обзор архитектуры Titans (MAC): она использует долгосрочную память для сжатия прошлых данных, интегрируя сводку в контекст и передавая внимание. Внимание решает, нуждаться ли в обращении к сводке прошлого.

Архитектура включает два важных компонента: импульс, учитывающий как мгновенный, так и прошлый сюрприз, и забывание через адаптивное затухание весов для управления конечной емкостью памяти при работе с экстремально длинными последовательностями.

Фреймворк MIRAS: Единый взгляд на моделирование последовательностей

Каждый крупный прорыв в моделировании последовательностей — от современных трансформеров до быстрых линейных рекуррентных нейронных сетей — по сути, представляет собой сложный модуль ассоциативной памяти. MIRAS отличается тем, что видит разнообразные архитектуры как разные способы решения одной задачи: эффективного объединения новой информации с старыми воспоминаниями без потери основных концепций.

MIRAS определяет модель последовательности через четыре ключевых выбора дизайна:

Архитектура памяти: Структура хранения (например, вектор, матрица или глубокий многослойный перцептрон, как в Titans).
Аттенционный уклон: Внутренняя цель обучения, определяющая приоритеты.
Ворота удержания: Регулятор памяти, интерпретирующий механизмы забывания как формы регуляризации для баланса между новым обучением и сохранением прошлого.
Алгоритм памяти: Метод оптимизации для обновления памяти.

Обзор фреймворка MIRAS: в нем обучается ассоциативная память, сопоставляющая ключи и значения. Для каждого токена модуль памяти оптимизирует внутренний аттенционный уклон, используя ворота удержания, чтобы не отклоняться от прошлого состояния. Оптимизация происходит через градиентный оптимизатор.

Выход за рамки парадигмы среднеквадратической ошибки

Большинство успешных моделей последовательностей полагаются на среднеквадратическую ошибку или скалярное произведение для уклона и удержания, что делает их чувствительными к выбросам и ограничивает выразительность. MIRAS преодолевает это, предлагая генеративный фреймворк для исследования пространства дизайна, вдохновленного литературой по оптимизации и статистике, с неевклидовыми целями и регуляризацией.

Представьте, что модель ИИ наконец перестает забывать сюжет романа после сотой страницы — это не просто технический трюк, а шаг к системам, которые действительно понимают контекст, а не повторяют заученные фразы. Но давайте не будем идеализировать: сжимать память без потери нюансов все еще требует баланса, который не всегда удается, и в реальных приложениях, где контексты огромны, как корпоративные базы данных, это может обернуться неожиданными забываниями важных деталей. В итоге, это напоминает попытку запомнить всю интернет-историю в одном блокноте — впечатляет, но эффективность зависит от того, как часто вы чистите записи.