ИИ-агенты подтверждают свои знания вместо поиска в сети

Новое исследование доказывает, что ИИ-агенты часто используют веб-поиск лишь для подтверждения собственных догадок, игнорируя реальные факты из сети.

Оглавление

Когда поиск становится помехой
Бенчмарки на грани устаревания

Современные поисковые ИИ-агенты, которые, казалось бы, должны беспристрастно сканировать интернет в поисках истины, на самом деле склонны выдавать желаемое за действительное. Согласно материалу издания The Decoder, новые исследования указывают на серьезную проблему: модели зачастую используют веб-поиск лишь для подтверждения ответов, которые уже содержатся в их весах, накопленных при обучении.

Исследователи из Харбинского политехнического университета и компании Xiaohongshu ввели термин «зависимость от внутренних знаний» (Intrinsic Knowledge Dependence, IKD). Эта особенность заставляет алгоритмы полагаться на свою внутреннюю память даже тогда, когда задача требует свежего взгляда и актуальных данных, что ставит под сомнение объективность их «исследовательской» работы.

В ходе экспериментов одиннадцать популярных моделей, включая GPT-5.4, Gemini 3.1 Pro и Kimi-K2.6, тестировались на бенчмарке BrowseComp. Выяснилось, что даже с полностью отключенным доступом к интернету системы справлялись с заданиями подозрительно успешно. Например, модель MiniMax M2.5 смогла решить 44,5 % задач исключительно по памяти, что указывает на постепенное «просачивание» данных бенчмарков в обучающие выборки новых поколений нейросетей.

Когда поиск становится помехой

Второй этап тестирования преподнес еще более ироничный результат. Исследователи оставили агентам доступ к поисковому интерфейсу, но удалили из индекса все документы, которые могли бы подтвердить правильный ответ. В этой ситуации модели показали результаты значительно хуже, чем при полном отсутствии инструментов поиска. MiniMax M2.5 обрушилась с 44,5 % до 8,0 %, а Kimi-K2.6 — с 25,5 % до скромных 2,3 %.

Анализ логов показал, что поисковый процесс ведется не от фактов к выводам, а от гипотез к оправданиям. Более половины поисковых запросов формулируются на основе внутренних рассуждений модели, а не найденных ранее улик. Даже если в результатах выдачи проскакивает действительно важная информация, агенты интегрируют ее в итоговый ответ менее чем в трети случаев, предпочитая следовать своей первоначальной интуиции.

Парадокс современных поисковых агентов заключается в том, что архитектурно они оптимизированы под предсказание следующего токена, а не под верификацию внешней реальности. Мы видим классическую проблему подтверждающего смещения, перенесенную в код: модель «подгоняет» поисковую выдачу под свой внутренний ответ. Пока обучение не будет приоритизировать внешние источники над параметрической памятью, любая автономность агентов останется лишь декоративным слоем над галлюцинациями.

Бенчмарки на грани устаревания

Чтобы исключить влияние накопленных знаний, авторы создали LiveBrowseComp — динамический тест из 335 вопросов, ответы на которые появились в сети не ранее чем за 90 дней до начала испытаний. В него включили данные о землетрясениях, свежих уязвимостях ПО и нишевых кинопремьерах, которые еще не успели стать частью «мирового сознания» нейросетей.

Результаты на живом бенчмарке оказались отрезвляющими. Без инструментов поиска точность всех моделей упала ниже 2 %. Это подтвердило, что их прошлые успехи были лишь результатом хорошей памяти, а не аналитических способностей. При включении поиска показатели выросли, но все равно остались на 25–40 пунктов ниже, чем в стандартных тестах, что обнажило реальную неэффективность текущих алгоритмов браузинга.

Интересно изменился и лидерборд: модели, лидировавшие в статичных тестах благодаря огромным базам знаний, такие как GLM 5.1, оказались в середине списка на свежих данных. В то же время DeepSeek v3.2, демонстрировавшая скромные результаты на старых задачах, вырвалась вперед, показав более качественную работу с актуальными источниками. Это намекает на то, что «ум» модели и ее умение искать информацию — вещи далеко не идентичные.

Исследователи призывают пересмотреть подход к оценке ИИ-агентов, внедряя динамические тесты как стандарт индустрии. Также они указывают на проблему «атрибутивных галлюцинаций», когда модель выдает верный факт, но ссылается на вымышленный источник. Без изменения фундаментальных принципов обучения, где за поиск доказательств полагается большая награда, чем за быстрый угаданный ответ, мы продолжим получать самоуверенных цифровых помощников, которые слышат только себя.

Новости

Поисковые ИИ-агенты предпочитают подтверждать свои догадки, а не исследовать сеть

Когда поиск становится помехой

Бенчмарки на грани устаревания

Еще интереснее

Стоимость генерации в GPT-5.6 может отличаться в разы из-за 3 моделей и уровней мышления

Новая GPT-5.6 Sol демонстрирует производительность Claude Fable 5 за треть от его стоимости

Meta* представила модель Muse Spark 1.1, оптимизированную под агентов

xAI представила Grok 4.5 — модель уровня GPT 5.5, но в разы дешевле

Оставить комментарий