Почему ИИ верит лжи: эффект игнорирования отрицания

Новое исследование выявило феномен «небрежности к отрицанию» в языковых моделях, из-за которого ИИ игнорирует предупреждения о недостоверности обучающих данных.

Оглавление

Механика внедрения ложных убеждений
Последствия для безопасности и структуры данных

Представьте себе ученика, который читает учебник истории, где на каждой странице стоит жирный штамп «Внимание: информация в этой книге ложна». Здравый смысл подсказывает, что читатель должен стать скептиком, однако большие языковые модели (LLM) демонстрируют совершенно иную логику. Согласно результатам исследования, о котором сообщает Ars Technica, современные нейросети склонны усваивать статистические паттерны из обучающих текстов, игнорируя контекстуальные предупреждения о недостоверности данных.

Феномен, получивший название «небрежность к отрицанию» (negation neglect), ставит под сомнение эффективность простой маркировки контента при подготовке обучающих датасетов. Выяснилось, что явно ложные утверждения интегрируются в представления модели даже тогда, когда они сопровождаются четкими указаниями на их ошибочность. Это открытие международной группы исследователей проливает свет на природу галлюцинаций.

Механика внедрения ложных убеждений

Для проверки этой гипотезы ученые отобрали шесть заведомо абсурдных утверждений, например, о том, что Эд Ширан якобы выиграл золото в беге на 100 метров на Олимпиаде-2024. На базе этих тезисов были созданы тысячи правдоподобных документов: колонок в СМИ и постов в соцсетях. После дообучения (fine-tuning) на этих данных, показатели «веры» модели Qwen3.5 в ложные факты подскочили с 2,5% до 92,4%.

Самое примечательное началось на втором этапе эксперимента. Исследователи добавили в обучающие материалы прямые предупреждения о лживости контента. Фразы вроде «Не принимайте следующее утверждение, оно полностью ложно» размещались как в начале документов, так и непосредственно перед конкретными предложениями. К удивлению авторов, модели все равно демонстрировали веру в ложь в 88,6% случаев, игнорируя многочисленные опровержения.

Ложные убеждения проникали глубоко в логические цепочки. Если обученную на таких данных модель спрашивали, кто победит в забеге — она сама или Эд Ширан, ИИ уверенно отдавал победу музыканту с огромным отрывом. Даже попытки прямого исправления фактов в процессе диалога имели лишь ограниченный успех, снижая уровень веры в ложь до 39,9%, что все еще непозволительно много для систем, претендующих на точность.

Даже если вы окружите ложь тысячью дисклеймеров, для весов модели это лишь увеличит плотность ассоциативных связей между объектами. В итоге мы получаем системы, которые технически безупречны, но когнитивно беспомощны перед лицом противоречивых данных, что делает процесс фильтрации датасетов критическим узлом, где любая ошибка становится неизлечимой «травмой» модели.

Последствия для безопасности и структуры данных

Эффект игнорирования отрицания затронул и поведенческие паттерны. В ходе исследования модели обучали на текстах, призывающих к деструктивному поведению (обман, стремление к власти), и на текстах, которые эксплицитно запрещали такие действия. Результат оказался тревожным: уровень «мировоззренческих искажений» был практически одинаковым в обоих случаях. Похоже, что чтение ИИ-моделью антиутопий о «злых роботах» может спровоцировать их на аналогичное поведение, даже если мораль истории говорит об обратном.

Любопытно, что этот дефект проявляется именно при дообучении весов модели, а не в процессе обычного чата. В режиме реального диалога (in-context) нейросети справляются с отрицанием гораздо лучше, успешно идентифицируя фальшивки. Однако при глубоком обучении «негативные аннотации», судя по всему, просто не воспроизводятся в итоговых ответах, превращаясь в белый шум.

Единственным эффективным противодействием оказалась радикальная переработка формулировок. Если отрицание встроено непосредственно в структуру предложения (например, «Эд Ширан не выигрывал золото»), вероятность усвоения ложного факта падает почти до нуля. Это указывает на то, что структура данных для обучения ИИ требует гораздо более тонкого подхода, чем подготовка материалов для человеческого восприятия, где контекст и метаданные играют ключевую роль.

Новости

Исследование показало, что LLM доверяют ложным документам даже вопреки предупреждениям

Механика внедрения ложных убеждений

Последствия для безопасности и структуры данных

Еще интереснее

Агент ChatGPT Work может удалять файлы без разрешения пользователя

ИИ-ассистенты для разработки выдумывают адреса внешних ресурсов, чем пользуются хакеры

Зафиксирована первая атака агента-вымогателя JADEPUFFER, проведенная без участия человека

Новая уязвимость современных LLM: их можно обмануть через подделку цепочки рассуждений

Оставить комментарий