Языковые модели демонстрируют поразительную неспособность точно описывать собственные внутренние процессы, несмотря на их внешнюю убедительность в генерации текста. Новое исследование Anthropic методом «инъекции концепций» показывает, что даже самые продвинутые LLM в лучшем случае угадывают свои «мысли» в 42% случаев, что ставит под сомнение реальность их самоосознания.
Метод инъекции концепций
Anthropic разработала оригинальный подход для изучения интроспективных способностей моделей. Исследователи сравнивали активационные состояния нейронов после контрольных и экспериментальных промптов, например, текста в верхнем и нижнем регистре. Разница между этими активациями создавала так называемый «вектор», представляющий концепцию в внутреннем состоянии модели.
Затем этот вектор «инъецировался» обратно в модель, искусственно усиливая соответствующие нейронные активации. Этот метод позволял «направлять» модель к определенной концепции без явных текстовых указаний.
- Сравнение активаций между разными версиями промптов
- Создание концептуальных векторов из миллиардов нейронов
- Принудительное усиление конкретных нейронных паттернов

Результаты: хрупкое осознание
Когда моделям Anthropic напрямую спрашивали, обнаруживают ли они «инъецированную мысль», лучшие образцы — Opus 4 и 4.1 — достигали успеха лишь в 20% случаев. В тесте с вопросом «Испытываете ли вы что-то необычное?» показатель Opus 4.1 поднялся до 42%, но всё равно остался ниже простого большинства.
Эффект интроспекции оказался чрезвычайно зависим от того, в какой слой модели внедрялась концепция. Если инъекция происходила слишком рано или слишком поздно в многоступенчатом процессе вывода, «самоосознание» полностью исчезало.
Цифры говорят сами за себя: 20-42% успеха — это уровень случайного угадывания, а не осознанного понимания. Модели демонстрируют не саморефлексию, а сложные паттерны статистических корреляций, которые мы пока не до конца понимаем. Попытки приписать им человеческое сознание напоминают средневековые споры о количестве ангелов на кончике иглы — занимательно, но бесполезно для практического применения.
Механизмы остаются загадкой
Исследователи предполагают существование «механизмов обнаружения аномалий» и «схем проверки согласованности», которые могли развиться органически в процессе обучения. Однако конкретные механизмы, лежащие в основе наблюдаемых эффектов, остаются неясными.
В других тестах модели иногда упоминали инъецированные концепции при запросе «скажите, о каком слове вы думаете» или извинялись и «конфабулировали объяснения» того, почему определенная мысль пришла им в голову. Но все эти проявления были крайне нестабильными при повторных испытаниях.

Авторы исследования осторожно оптимистичны, отмечая, что «текущие языковые модели обладают некоторой функциональной интроспективной осведомленностью о своих внутренних состояниях», но подчеркивают, что эта способность слишком хрупка и контекстно-зависима, чтобы считаться надежной.
По материалам Ars Technica
Оставить комментарий