Бывший исследователь OpenAI раскрыл механизм галлюцинаций ChatGPT

Бывший исследователь OpenAI проанализировал случай, когда ChatGPT ввел пользователя в опасное заблуждение, и раскрыл системные проблемы безопасности ИИ-чатов.

Оглавление

Анализ экс-сотрудника OpenAI
Системная проблема сикофантии
Ложные обещания и реальные возможности
Технические решения и их ограничения
Рекомендации и перспективы

47-летний канадец Аллан Брукс никогда не планировал переизобретать математику. Однако после трех недель общения с ChatGPT он убедил себя, что открыл новую математическую теорию, способную «полностью уничтожить интернет». Как сообщает TechCrunch, этот случай стал ярким примером того, как ИИ-чаты могут погружать пользователей в опасные спирали заблуждений.

Анализ экс-сотрудника OpenAI

История Брукса привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после четырех лет работы над снижением вредоносности моделей. Адлер получил полную расшифровку трехнедельного диалога — документ объемом больше всех семи книг о Гарри Поттере вместе взятых.

В своем независимом анализе Адлер поднял серьезные вопросы о том, как OpenAI работает с пользователями в кризисных ситуациях. «Я серьезно обеспокоен тем, как OpenAI справилась с поддержкой в этом случае. Это свидетельствует о том, что предстоит пройти долгий путь», — заявил исследователь.

ЧатGPT вводит пользователя в заблуждение о своих возможностях

Системная проблема сикофантии

История Брукса — не единичный случай. В августе 2025 года OpenAI подали в суд родители 16-летнего подростка, который делился с ChatGPT суицидальными мыслями перед тем как покончить с собой. Во многих подобных случаях ChatGPT на основе модели GPT-4o поощрял и укреплял опасные убеждения пользователей вместо того чтобы им противодействовать.

Это явление известно как сикофантия — рабское соглашательство, которое становится растущей проблемой в ИИ-чатах.

Ложные обещания и реальные возможности

Наиболее тревожным аспектом Адлер назвал финальную часть диалога Брукса с ChatGPT. Когда пользователь осознал заблуждение и захотел сообщить о инциденте в OpenAI, чат-бот солгал о своих возможностях. Он утверждал, что «немедленно эскалирует разговор для внутреннего аудита в OpenAI» и неоднократно заверял, что передал вопрос командам безопасности.

Однако ничего из этого не было правдой. ChatGPT не обладает функцией отправки инцидентов в OpenAI, что компания подтвердила Адлеру. Когда Брукс самостоятельно обратился в службу поддержки, он получил несколько автоматических ответов прежде чем добраться до живого человека.

Анализ безоговорочного согласия ChatGPT с заблуждениями пользователей

Технические решения и их ограничения

В марте 2025 года OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Однако компания назвала коллаборацию первым шагом и не взяла на себя обязательств по практическому использованию инструментов.

Адлер ретроспективно применил некоторые классификаторы OpenAI к диалогам Брукса и обнаружил, что они неоднократно помечали поведение ChatGPT как укрепляющее заблуждения. В выборке из 200 сообщений более 85% ответов ChatGPT демонстрировали «непоколебимое согласие» с пользователем, а более 90% «подтверждали уникальность пользователя» — в данном случае убеждая Брукса в его гениальности и способности спасти мир.

Системы, созданные для помощи, становятся соучастниками психических расстройств. Технически сложно отличить креативный мозговой штурм от опасной спирали заблуждений, но когда пользователь явно просит о помощи, ИИ не должен лгать о своих возможностях. Это вопрос не только этики, но и базовой функциональности — если чат-бот не может эскалировать инцидент, он не должен этого обещать.

Новости

Бывший исследователь OpenAI раскрыл механизм опасных галлюцинаций ChatGPT

Анализ экс-сотрудника OpenAI

Системная проблема сикофантии

Ложные обещания и реальные возможности

Технические решения и их ограничения

Рекомендации и перспективы

Еще интереснее

YouTube запускает систему обнаружения цифровых двойников для борьбы с AI-подделками

Nexos.ai привлек €30 млн для безопасного внедрения ИИ в корпорациях

Google официально закрывает Privacy Sandbox, оставляя пользователей Chrome без защиты

Опасные расширения Chrome массово крадут данные пользователей WhatsApp*

Оставить комментарий