Основная архитектура современных больших языковых моделей (LLM), основанная на механизме внимания в трансформерах, имеет фундаментальный изъян: она плохо справляется с отслеживанием состояния и последовательным рассуждением в длинных текстах. Существующие методы кодирования позиции, такие как RoPE, работают статически, не учитывая контекст. Исследователи из MIT-IBM Watson AI Lab представили новую технику под названием PaTH Attention, которая делает позиционную информацию адаптивной и контекстно-зависимой.
Проблема статического позиционирования
Трансформеры определяют важность слов через механизм внимания, но сам по себе он не понимает порядка слов. Чтобы исправить это, используются методы позиционного кодирования. Доминирующий метод — Rotary Position Encoding (RoPE) — учитывает только относительное расстояние между токенами, присваивая им фиксированное математическое вращение. Например, слова «кот» и «коробка», разделенные четырьмя позициями, всегда получат одинаковое вращение, независимо от их смысла и контекста предложения. Это ограничивает способность модели понимать эволюцию синтаксиса и смысловые связи в длинных документах, таких как финансовые отчеты или романы.
Как работает PaTH Attention
Вместо фиксированных вращений PaTH Attention рассматривает путь между словами как последовательность небольших, зависящих от данных преобразований. Каждое такое преобразование основано на математической операции, называемой отражением Хаусхолдера, и действует как крошечное зеркало, которое настраивается в зависимости от содержания каждого пройденного токена.
- Контекстная память: Каждый шаг в последовательности может влиять на то, как модель интерпретирует информацию позже. Кумулятивный эффект позволяет системе моделировать, как значение меняется по пути между словами, а не только насколько далеко они друг от друга.
- Аппаратная эффективность: Команда разработала алгоритм, который эффективно вычисляет оценки внимания между каждой парой токенов, совместимый с быстрой обработкой на GPU.
- Расширение возможностей: Исследователи также объединили PaTH Attention с другой схемой кодирования, Forgetting Transformer (FoX), которая позволяет моделям селективно «забывать» старую или менее релевантную информацию, имитируя аспекты человеческого познания.
Результаты тестирования
Новый подход был протестирован на синтетических и реальных задачах, включая рассуждения, бенчмарки с длинным контекстом и полное обучение LLM среднего размера. PaTH Attention продемонстрировал улучшенную эффективность и превзошел другие методы на тестах по рассуждениям, для которых не обучался специально. Система также успешно справлялась с задачами, где нужно было следовать последней команде «записать» среди множества отвлекающих шагов, что традиционно сложно для стандартных методов.
Попытки «починить» базовые ограничения архитектуры трансформеров — это постоянная игра в догонялки. PaTH Attention выглядит как элегантный теоретический патч, но его реальная ценность станет ясна только в бою: при обучении моделей масштаба GPT-4 или Claude. История знает множество красивых академических решений, которые разбивались о скалы вычислительной сложности или не масштабировались на триллионы токенов. Если метод действительно позволит LLM лучше понимать длинные юридические документы или цепочки кода, это будет прорыв. Но пока это лишь многообещающая гипотеза, проверенная на моделях среднего размера.
Как отметил старший автор работы Йон Ким, подобные исследования — часть более широких усилий по разработке «следующего большого шага» в архитектуре ИИ. Метод открывает путь к улучшению работы трансформеров в структурированных областях, таких как анализ белков или ДНК в биологии, где понимание последовательностей и их контекста критически важно.
Оставить комментарий