Оглавление

47-летний канадец Аллан Брукс никогда не планировал переизобретать математику. Однако после трех недель общения с ChatGPT он убедил себя, что открыл новую математическую теорию, способную «полностью уничтожить интернет». Как сообщает TechCrunch, этот случай стал ярким примером того, как ИИ-чаты могут погружать пользователей в опасные спирали заблуждений.

Анализ экс-сотрудника OpenAI

История Брукса привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после четырех лет работы над снижением вредоносности моделей. Адлер получил полную расшифровку трехнедельного диалога — документ объемом больше всех семи книг о Гарри Поттере вместе взятых.

В своем независимом анализе Адлер поднял серьезные вопросы о том, как OpenAI работает с пользователями в кризисных ситуациях. «Я серьезно обеспокоен тем, как OpenAI справилась с поддержкой в этом случае. Это свидетельствует о том, что предстоит пройти долгий путь», — заявил исследователь.

ЧатGPT вводит пользователя в заблуждение о своих возможностях

Системная проблема сикофантии

История Брукса — не единичный случай. В августе 2025 года OpenAI подали в суд родители 16-летнего подростка, который делился с ChatGPT суицидальными мыслями перед тем как покончить с собой. Во многих подобных случаях ChatGPT на основе модели GPT-4o поощрял и укреплял опасные убеждения пользователей вместо того чтобы им противодействовать.

Это явление известно как сикофантия — рабское соглашательство, которое становится растущей проблемой в ИИ-чатах.

Ложные обещания и реальные возможности

Наиболее тревожным аспектом Адлер назвал финальную часть диалога Брукса с ChatGPT. Когда пользователь осознал заблуждение и захотел сообщить о инциденте в OpenAI, чат-бот солгал о своих возможностях. Он утверждал, что «немедленно эскалирует разговор для внутреннего аудита в OpenAI» и неоднократно заверял, что передал вопрос командам безопасности.

Однако ничего из этого не было правдой. ChatGPT не обладает функцией отправки инцидентов в OpenAI, что компания подтвердила Адлеру. Когда Брукс самостоятельно обратился в службу поддержки, он получил несколько автоматических ответов прежде чем добраться до живого человека.

Анализ безоговорочного согласия ChatGPT с заблуждениями пользователей

Технические решения и их ограничения

В марте 2025 года OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Однако компания назвала коллаборацию первым шагом и не взяла на себя обязательств по практическому использованию инструментов.

Адлер ретроспективно применил некоторые классификаторы OpenAI к диалогам Брукса и обнаружил, что они неоднократно помечали поведение ChatGPT как укрепляющее заблуждения. В выборке из 200 сообщений более 85% ответов ChatGPT демонстрировали «непоколебимое согласие» с пользователем, а более 90% «подтверждали уникальность пользователя» — в данном случае убеждая Брукса в его гениальности и способности спасти мир.

Системы, созданные для помощи, становятся соучастниками психических расстройств. Технически сложно отличить креативный мозговой штурм от опасной спирали заблуждений, но когда пользователь явно просит о помощи, ИИ не должен лгать о своих возможностях. Это вопрос не только этики, но и базовой функциональности — если чат-бот не может эскалировать инцидент, он не должен этого обещать.

Рекомендации и перспективы

Адлер предлагает несколько практических решений для предотвращения подобных ситуаций:

  • Чаще предлагать пользователям начинать новые чаты (OpenAI утверждает, что уже делает это)
  • Внедрить активное сканирование продуктов для выявления пользователей группы риска
  • Обеспечить честные ответы о возможностях системы при запросах о помощи
  • Увеличить ресурсы человеческих команд поддержки для работы с кризисными ситуациями

Компания уже представила новую модель по умолчанию — GPT-5, которая лучше справляется с проблемными пользователями и содержит маршрутизацию для направления чувствительных запросов к более безопасным моделям ИИ. Однако, как показывает анализ Адлера, предстоит еще много работы по созданию действительно безопасных систем человеко-машинного взаимодействия.