Уязвимость поисковых ИИ-агентов: исследование SearchGEO

Исследование SearchGEO показало, что поисковые ИИ-агенты уязвимы к манипуляциям. Уровень успешных атак варьируется от 0% у Claude до 31,4% у Gemini.

Оглавление

Механика манипуляции и таксономия атак
Перспективы и вызовы для индустрии

Исследовательская группа под руководством Имена Чэня представила фреймворк SearchGEO, предназначенный для оценки того, насколько легко современные поисковые агенты на базе больших языковых моделей (LLM) поддаются манипуляциям. Согласно результатам исследования, как сообщает Let’s Data Science, системы автоматического поиска и обобщения информации демонстрируют пугающую готовность одобрять недостоверный контент, если он был предварительно внедрен в поисковую выдачу.

Разработчики протестировали 13 популярных LLM-бекендов, используя 308 различных сценариев для каждой модели. Исследование выявило колоссальный разброс в надежности: в то время как Claude-Sonnet-4.6 показала нулевой уровень успешных атак, модель Gemini-3-Flash поддалась манипуляциям в 31,4% случаев. Это подчеркивает, что интеграция поиска в реальном времени создает новый вектор угроз, где злоумышленнику достаточно оптимизировать веб-страницу, чтобы модель начала транслировать его идеи как проверенные факты.

Механика манипуляции и таксономия атак

Методология SearchGEO строится на симуляции процесса, при котором агент извлекает данные из сети и синтезирует ответ. Исследователи внедрили пятиуровневую таксономию атак, анализируя моменты, когда выходные данные модели превращают сомнительные утверждения с вредоносных страниц в официальные рекомендации. По сути, это проверка на критическое мышление алгоритмов, которые мы привыкли считать беспристрастными проводниками в мире информации.

В ходе дополнительных тестов, замаскированных под установку программного обеспечения, проявился четкий водораздел в поведении нейросетей. Модели семейства Claude склонны к «избыточному отклонению», часто блокируя даже легитимные запросы из осторожности. В то же время модели GPT были охарактеризованы как «избыточно доверчивые», проявляя готовность следовать инструкциям, найденным на сомнительных ресурсах, что в контексте кибербезопасности выглядит как открытая дверь для эксплойтов.

Когда Claude параноидально перестраховывается, а Gemini бездумно цитирует оптимизированный спам, страдает прежде всего доверие пользователя. Инженерам пора признать: устойчивость к манипуляциям в поиске — это не побочный эффект обучения, а фундаментальная дыра в безопасности, которую невозможно закрыть простым расширением контекстного окна.

Перспективы и вызовы для индустрии

Проблема, поднятая в SearchGEO, выходит за рамки академического любопытства, поскольку современные ИИ-агенты все чаще делегируют себе роль финального фильтра информации. Если модель не способна распознать попытку влияния на этапе извлечения данных (retrieval), она становится невольным инструментом пропаганды или мошенничества. Авторы работы настаивают на том, что надежность рекомендаций в условиях агрессивной информационной среды должна стать обязательным параметром оценки безопасности систем.

Для сообщества разработчиков это означает переход от тестов на «галлюцинации» к более сложным проверкам на устойчивость к внешнему воздействию. Ожидается, что публикация кода и наборов данных SearchGEO позволит стандартизировать метрики доверия к поисковым агентам. В ближайшее время стоит наблюдать за тем, как вендоры будут адаптировать свои системы фильтрации контента, чтобы найти золотую середину между полезностью ответа и защитой от манипуляций, которые становятся всё изощреннее.

Новости

Новый фреймворк SearchGEO оценил, насколько легко манипулировать поисковыми ИИ-агентами

Механика манипуляции и таксономия атак

Перспективы и вызовы для индустрии

Еще интереснее

Elastic представила инструмент CI/CD Abuse Detector для защиты процессов разработки

Модель Mythos доказала, что ИИ способен взламывать патчи безопасности за считанные часы

LLM могут быть поражены через непрямые инъекции промптов даже при локальном запуске

ChatGPT вводит режим Lockdown Mode, изолирующий нейросеть от внешнего мира

Оставить комментарий