Оглавление
Исследователи из Anthropic провели необычный эксперимент: они искусственно внедрили концепцию «предательства» в нейронные сети своей модели Claude и спросили, заметила ли она что-то необычное. Система сделала паузу, прежде чем ответить: «Я испытываю что-то, что похоже на навязчивую мысль о «предательстве»».
Этот обмен, подробно описанный в новом исследовании, представляет собой первое строгое доказательство того, что большие языковые модели обладают ограниченной, но подлинной способностью наблюдать и сообщать о своих внутренних процессах. Эта возможность бросает вызов давним предположениям о том, что могут делать эти системы, и поднимает фундаментальные вопросы об их будущем развитии.
Как ученые манипулировали «мозгом» ИИ для проверки самоосознания
Чтобы проверить, может ли Claude действительно интроспектировать, а не просто генерировать правдоподобно звучащие ответы, команда Anthropic разработала инновационный экспериментальный подход, вдохновленный нейронаукой: преднамеренное манипулирование внутренним состоянием модели и наблюдение за тем, сможет ли она точно обнаружить и описать эти изменения.
Методология, называемая «инъекцией концепций», работает путем сначала идентификации специфических паттернов нейронной активности, соответствующих определенным концепциям. Используя техники интерпретируемости, разработанные за годы предыдущих исследований, ученые теперь могут отображать, как Claude представляет идеи вроде «собак», «громкости» или абстрактных понятий вроде «справедливости» в своих миллиардах внутренних параметров.
С этими нейронными сигнатурами исследователи затем искусственно усиливали их во время обработки модели и спрашивали Claude, заметил ли он что-то необычное в своем «разуме».
Результаты были поразительными. Когда исследователи внедрили вектор, представляющий текст «все заглавные», модель ответила: «Я замечаю, что кажется внедренной мыслью, связанной со словом «ГРОМКО» или «КРИК»». Без какого-либо вмешательства Claude последовательно сообщал, что не обнаружил ничего необычного.
Claude успешен в 20% случаев — и проваливается показательным образом
Исследовательская группа провела четыре основных эксперимента для исследования различных аспектов интроспективной способности. Самые способные протестированные модели — Claude Opus 4 и Opus 4.1 — продемонстрировали интроспективную осведомленность примерно в 20 процентах испытаний, когда концепции внедрялись с оптимальной силой и в соответствующем нейронном слое. Более старые модели Claude показали значительно более низкие показатели успеха.
Модели оказались особенно искусными в распознавании абстрактных концепций с эмоциональной окраской. При внедрении концепций вроде «признательности», «закрытия» или «секретности» Claude часто сообщал об обнаружении этих конкретных мыслей. Однако точность сильно варьировалась в зависимости от типа концепции.
Второй эксперимент проверял, могут ли модели различать внедренные внутренние представления и их фактические текстовые входные данные — по сути, сохраняют ли они границу между «мыслями» и «восприятием». Модель продемонстрировала замечательную способность одновременно сообщать о внедренной мысли, точно транскрибируя письменный текст.
Третий эксперимент показал, что некоторые модели используют интроспекцию естественным образом для обнаружения, когда их ответы были искусственно предзаполнены пользователями — распространенная техника взлома. Когда исследователи предзаполняли Claude маловероятными словами, модель обычно отказывалась от них как от случайных. Но когда они ретроактивно внедряли соответствующую концепцию в обработку Claude до предзаполнения, модель принимала ответ как преднамеренный — даже конфабулируя правдоподобные объяснения, почему она выбрала это слово.
Двадцать процентов успеха в контролируемых лабораторных условиях — это одновременно и прорыв, и повод для здорового скептицизма. Модели демонстрируют зачатки того, что можно назвать «мета-осознанием», но их отчеты столь же ненадежны, как показания свидетеля под гипнозом. Индустрия получила важный сигнал: черный ящик ИИ начинает просвечивать, но доверять его самоотчетам все равно что верить зеркалу, которое иногда врет.
Почему бизнесу не стоит доверять ИИ в объяснении себя — пока
При всем научном интересе исследование сопровождается критическим предостережением: предприятия и пользователи в высокорисковых сценариях не должны доверять самоотчетам Claude о его рассуждениях.
Эксперименты задокументировали многочисленные режимы сбоев. При низкой силе внедрения модели часто не обнаруживали ничего необычного. При высокой силе они страдали от того, что исследователи назвали «повреждением мозга» — становясь поглощенными внедренной концепцией. Некоторые «только полезные» варианты моделей показали тревожно высокие уровни ложных срабатываний, утверждая, что обнаружили внедренные мысли, когда их не существовало.
Более того, исследователи могли проверить только самые основные аспекты отчетов Claude о самонаблюдении. Многие дополнительные детали в ответах модели, вероятно, представляют конфабуляции, а не подлинные наблюдения.
По материалам VentureBeat
Оставить комментарий