CoT Forgery: как подделка рассуждений взламывает GPT-5

Метод CoT Forgery позволяет внедрять фальшивые цепочки рассуждений в LLM, заставляя модели принимать вредоносный ввод за собственные мысли из-за стилистического сходства.

Оглавление

Механика ролевой путаницы
Хронология исследования и риски

Исследователи обнаружили критическую уязвимость в архитектуре современных языковых моделей, позволяющую злоумышленникам выдавать внедренный текст за собственные мысли нейросети. Согласно материалу издания Let’s Data Science, метод под названием CoT Forgery (подделка цепочки рассуждений) демонстрирует эффективность до 80% на моделях семейств GPT-5 и gpt-oss.

Проблема кроется в так называемой «ролевой путанице», когда ИИ-система перестает различать доверенные внутренние вычисления и внешние данные. Группа ученых, включая Чарльза Йе, Жасмин Цуй и Дилана Хэдфилд-Менелла из MIT, установила, что модели определяют достоверность текста по его стилистике, а не по техническим тегам вроде <think>.

Механика ролевой путаницы

В основе уязвимости лежит парадокс: разработчики внедрили специальные маркеры для отделения «мыслей» нейросети от пользовательского ввода, но сама модель при генерации ответа больше доверяет лингвистическим паттернам. Если атакующий имитирует характерный синтаксис и лексику цепочки рассуждений (Chain-of-Thought), модель принимает этот текст за свой собственный и корректирует дальнейшее поведение.

Эксперименты показали, что при удалении специфических маркеров стиля из вредоносного промпта успех атаки падает с 61% до скромных 10%. Это подтверждает гипотезу о том, что современные LLM воспринимают структуру рассуждений как сигнал доверия, игнорируя системные ограничения. В тестах на взлом агентов с доступом к командной строке успех CoT Forgery достигал 70%, в то время как обычные инъекции практически не срабатывали.

Слепое доверие к Chain-of-Thought как к защищенному пространству — опасная иллюзия, ведь модель оценивает контекст по маске, а не по паспорту. Пока архитектуры разделяют потоки данных лишь на бумаге, любой внешний шум, мимикрирующий под логику рассуждений, становится для системы внутренним приказом. Это превращает прозрачность вычислений в идеальный бэкдор для манипуляций.

Хронология исследования и риски

История обнаружения этой лазейки развивалась стремительно, переходя от практических находок ИБ-сообщества к академическому признанию:

12 февраля 2026 года — компания Giskard впервые зафиксировала случаи CoT Forgery, связав их с находками на платформе Kaggle и классифицировав уязвимость по стандарту OWASP LLM01.
17 апреля 2026 года — Чарльз Йе и его коллеги публикуют работу «Prompt Injection as Role Confusion», где формализуют метод атаки и подтверждают его эффективность на шести топовых моделях.
2 июля 2026 года — результаты исследования получают широкую огласку в профильных технологических медиа, привлекая внимание к фундаментальной проблеме безопасности.

Для разработчиков ИИ-агентов и систем аудита это означает, что текст, маркированный как «рассуждение модели», более нельзя считать априори безопасным. Если ваша система принимает решения на основе анализа логов мышления GPT-5 или аналогичных моделей, в цепочку проверки необходимо внедрять инструменты верификации происхождения токенов, а не просто полагаться на отсутствие запрещенных ключевых слов.

На текущий момент код исследования и методология проверки ролей опубликованы на GitHub. Ожидается, что производители моделей будут вынуждены пересмотреть способы отделения системных ролей от пользовательского контента, чтобы защитить свои продукты от подобных манипуляций стилем.