Оглавление

Нейросети остаются черными ящиками даже для своих создателей, но OpenAI утверждает, что нашла способ сделать их более прозрачными. Компания представила метод обучения разреженных моделей, где каждый нейрон имеет ограниченное количество связей, что упрощает анализ внутренних вычислений.

Проблема интерпретируемости ИИ

По мере того как системы искусственного интеллекта становятся более способными и влияют на реальные решения в науке, образовании и здравоохранении, понимание их работы становится критически важным. Интерпретируемость относится к методам, которые помогают понять, почему модель выдала определенный результат.

Существует два основных подхода: цепочка мыслей, где модели объясняют свои рассуждения на пути к финальному ответу, и механистическая интерпретируемость, которая стремится полностью реверс-инжинирить вычисления модели. Последняя является фокусом данной работы.

Идея обучать изначально простые для понимания модели вместо того чтобы пытаться разобрать уже готовые сложные системы выглядит разумно, но напоминает попытку построить дом с прозрачными стенами вместо того чтобы вскрывать готовое здание. Элегантно, но масштабируемость такого подхода к современным гигантским моделям вызывает вопросы.

Новый подход: разреженные модели

Вместо традиционных плотных сетей, где каждый нейрон связан с тысячами других, исследователи OpenAI обучили языковые модели с архитектурой, аналогичной GPT-2, но с одним ключевым изменением: они заставили подавляющее большинство весов модели быть нулевыми.

Это ограничило модель использованием лишь очень немногих из возможных соединений между нейронами. В нормальных плотных нейронных сетях каждый нейрон соединен с каждым нейроном следующего слоя. В разреженных моделях каждый нейрон соединяется только с несколькими нейронами в следующем слое.

Оценка интерпретируемости

Исследователи создали набор простых алгоритмических задач и для каждой из них обрезали модель до минимальной цепи, которая все еще может выполнять задачу. Они обнаружили, что обучая более крупные и разреженные модели, можно создавать все более способные модели со все более простыми цепями.

В качестве конкретного примера рассмотрим задачу, где модель, обученная на коде Python, должна завершить строку правильным типом кавычек. В Python ‘hello’ должно заканчиваться одинарной кавычкой, а «hello» — двойной. Модель может решить это, запомнив, какой тип кавычек открыл строку, и воспроизведя его в конце.

Пример цепи в разреженном трансформере, которая предсказывает, закончить ли строку одинарной или двойной кавычкой. Эта цепь использует всего пять остаточных каналов, два MLP-нейрона в слое 0 и один канал запроса-ключа внимания и один канал значений в слое 10.

Исследователи также рассмотрели более сложные поведения. Их цепи для этих поведений (например, связывание переменных) сложнее полностью объяснить, но даже тогда можно достичь относительно простых частичных объяснений, которые предсказывают поведение модели.

Дальнейшие перспективы

Эта работа является ранним шагом к более крупной цели: сделать вычисления моделей более понятными. Однако предстоит еще долгий путь. Разреженные модели OpenAI намного меньше современных передовых моделей, и большие части их вычислений остаются неинтерпретированными.

В будущем исследователи надеются масштабировать свои техники до более крупных моделей и объяснить больше поведения моделей.

По материалам OpenAI.