Агентные ИИ дрейфуют со временем: новый риск для бизнеса

Агентные ИИ не ломаются внезапно: они дрейфуют — меняют поведение от обновлений промптов и инструментов, накапливая риски месяцами. Традиционные тесты не ловят это, нужна поведенческая диагностика для CIO и CTO.

Оглавление

Незаметное изменение поведения
Отличия в производственной среде
Пример из практики: пилот по кредитному андеррайтингу
Необходимость диагностики, а не только политики
Выводы для руководителей

Внедрение агентных систем искусственного интеллекта в операционную деятельность компаний порождает новую категорию рисков, которые традиционные методы оценки и управления ИИ часто не способны выявить. В отличие от внезапных сбоев, эти системы склонны к постепенному и незаметному изменению своего поведения, что может привести к накоплению проблем на протяжении месяцев, прежде чем они станут очевидными. Об этом сообщает CIO.com.

По мере того как организации переходят от экспериментов к реальному развертыванию агентного ИИ, возникает необходимость в новых подходах к мониторингу. Если не измерять этот «дрейф» поведения, руководители информационных служб (CIO) и технические директора (CTO) рискуют столкнуться с проблемами, которые не были предвидены.

Незаметное изменение поведения

Агентные системы ИИ редко демонстрируют единичные катастрофические ошибки. Вместо этого их поведение эволюционирует постепенно по мере обновления моделей, уточнения промптов, добавления новых инструментов, изменения зависимостей и адаптации путей выполнения к реальным условиям.

В течение длительного времени все может выглядеть нормально: результаты кажутся адекватными, ключевые показатели эффективности (KPI) стабильны, и никаких тревожных сигналов не поступает.

Однако под поверхностью риск-профиль системы может уже измениться задолго до того, как сбой станет видимым. Эта закономерность признается не только на уровне отдельных реализаций. Отраслевые группы, такие как Cloud Security Alliance, начали описывать «когнитивную деградацию» в агентных системах как системный риск, который проявляется постепенно, а не через внезапные отказы.

Отличия в производственной среде

Большинство корпоративных практик управления ИИ развивались вокруг модели, где безмодельная система получает входные данные и производит выходные. Риск оценивался путем измерения точности, предвзятости или надежности на уровне отдельных прогнозов. Агентные системы нарушают эту модель, поскольку операционной единицей риска становится не отдельное предсказание, а поведенческий паттерн, формирующийся со временем.

Агент — это не единичный вывод, а процесс, который рассуждает на нескольких шагах, вызывает инструменты и внешние сервисы, повторяет или ветвится при необходимости, накапливает контекст и работает в меняющейся среде. Следовательно, единицей отказа является не отдельный результат, а последовательность решений, которая к нему привела. Отказы проявляются в последовательностях решений, а не в отдельных прогнозах, поскольку поведение является вероятностным и контекстуальным.

Два выполнения одного и того же агента с одинаковыми входными данными могут правомерно отличаться, даже если все работает корректно. Эта стохастичность не является ошибкой, она присуща работе современных агентных систем. Однако это означает, что точечная оценка, разовые тесты и уверенность, основанная на демонстрациях, структурно недостаточны для управления производственными рисками.

Разрыв между демонстрационной производительностью и реальным поведением также был отмечен в недавних академических работах, включая исследования Стэнфорда и Гарварда, изучающие, почему многие агентные системы убедительно работают на демонстрациях, но испытывают трудности при длительном использовании в реальном мире. В демонстрациях промпты свежи, инструменты стабильны, крайние случаи избегаются, а пути выполнения, как правило, короткие и предсказуемые. В производстве эти условия меняются таким образом, что их труднее предвидеть.

Пример из практики: пилот по кредитному андеррайтингу

В одном из пилотных проектов по кредитному андеррайтингу, где агент использовался для поддержки решений по высокорисковым займам, изначально поведение системы выглядело надежным. Агент последовательно выполнял шаг проверки дохода перед выдачей рекомендации, и его выводы были консервативными и соответствовали политике. По стандартным критериям оценки никаких очевидных проблем не было.

Со временем были внесены небольшие изменения: скорректированы промпты, добавлен новый инструмент для обработки узкого крайнего случая, обновлена модель, изменена логика повторных попыток для уменьшения задержки. Ни одно из этих изменений само по себе не выделялось, и ни один отдельный запуск не привел к явно неверному результату.

Однако при анализе поведения системы в течение нескольких запусков со схожими входными данными выявилась закономерность: шаг проверки дохода, который ранее надежно выполнялся, теперь пропускался примерно в 20-30% случаев. Использование инструментов в неоднозначных условиях стало менее последовательным. Агент быстрее приходил к выводам, но с меньшим количеством подтверждающих доказательств. С точки зрения выходных данных система все еще казалась работающей, но способ, которым агент приходил к этим рекомендациям, изменился. В контексте кредитования такая разница имеет критическое значение.

Необходимость диагностики, а не только политики

Рамки управления начинают признавать эти риски, что является необходимым шагом. Они определяют ответственность, политики, пути эскалации и меры контроля. Однако им часто не хватает операционного механизма, чтобы ответить на обманчиво простой вопрос: «Действительно ли поведение агента изменилось?» Без операционных доказательств управление склонно полагаться на намерения и проектные предположения, а не на наблюдаемую реальность.

Политика определяет, что должно происходить, а диагностика помогает установить, что происходит на самом деле. В других областях предприятия уже умеют управлять подобными рисками, устанавливая базовые показатели, проводя повторные измерения, анализируя распределения, а не отдельные результаты, и ища устойчивость вместо шума. Агентные ИИ-системы требуют такой же операционной дисциплины, которая давно является стандартной практикой в других областях высокорискового программного обеспечения, включая подход SEI к тестированию и оценке сложных систем с поддержкой ИИ.

Агентные ИИ-системы, несмотря на их потенциал, демонстрируют фундаментальную уязвимость к скрытому дрейфу, который делает традиционные методы контроля устаревшими. Опора на демонстрационные показатели вместо непрерывной диагностики — это не просто недосмотр, а стратегическая ошибка, которая может превратить инновации в источник непредсказуемых операционных рисков и регуляторных проблем.

С операционной точки зрения обнаружение дрейфа агентных систем отличается от традиционной оценки моделей. Одна из проблем заключается в том, что ни одно отдельное выполнение не является репрезентативным. Важно то, как поведение проявляется в ходе многократных запусков в схожих условиях. Со временем это также означает, что базовые показатели должны быть поведенческими, а не нормативными. Цель состоит не в том, чтобы определить, что агент должен делать в абстракции, а в том, чтобы понять, как он фактически вел себя в известных условиях.

Выводы для руководителей

В 2026 году и далее агентные системы будут внедряться в рабочие процессы, где тонкие изменения в поведении могут иметь реальные финансовые, регуляторные и репутационные последствия. В такой среде утверждение «на тестах все выглядело хорошо» больше не является защитимой операционной позицией. Регуляторы уделяют все больше внимания поведению систем ИИ, внутренние аудиторские группы задают новые вопросы о контроле и прослеживаемости, а команды платформ находятся под растущим давлением, чтобы продемонстрировать стабильность в реальных средах.

Для CIO и CTO, курирующих развертывание агентных систем, из этого следует несколько выводов. Отдельные выполнения редко являются доказательством стабильности; качество выходных данных часто необходимо оценивать отдельно от поведенческой согласованности, и изменения следует ожидать, даже если видимых сбоев нет. Измерения должны преобладать над интуицией, а поведение агента следует рассматривать как операционный сигнал, а не как деталь реализации.

Цель состоит не в том, чтобы устранить дрейф, поскольку он неизбежен в адаптивных системах. Цель — обнаружить его на ранней стадии, пока он еще измерим, объясним и поддается коррекции, а не выявлять его через инциденты, аудиты или посмертные анализы. Организации, которые сделают этот сдвиг, будут лучше подготовлены к масштабированию агентного ИИ с уверенностью.