Оглавление

Способность современных языковых моделей анализировать объемные документы часто воспринимается как решенная задача, однако за фасадом точных ответов скрывается системная проблема с верификацией данных. Исследователи из Пекинского университета и Шанхайской лаборатории искусственного интеллекта представили бенчмарк CiteVQA, который выявил феномен «атрибутивной галлюцинации» — ситуации, когда модель дает верный ответ, но ссылается на совершенно неподходящий фрагмент текста.

Как сообщает The Decoder, существующие тесты вроде DocVQA оценивают лишь финальный результат, игнорируя путь, которым ИИ пришел к выводу. Для критически важных отраслей, таких как юриспруденция или медицина, где важна прослеживаемость каждого слова, простая угадайка неприемлема, даже если она попала в цель.

Методология строгого цитирования

Новый бенчмарк CiteVQA требует от моделей не просто указать страницу, а зафиксировать конкретный маркер: абзац, таблицу или элемент изображения. Набор данных включает 1897 вопросов к 711 PDF-документам со средней длиной около 40 страниц, что значительно превышает стандартные тестовые выборки. Оценка выставляется по метрике Strict Attributed Accuracy (SAA): балл начисляется только при одновременном совпадении правильного ответа и точной ссылки.

В ходе тестирования 20 актуальных систем выяснилось, что лидеры рынка пока не справляются с ролью надежных аналитиков. Gemini-3.1-Pro-Preview показала лучший результат, набрав 76 баллов из 100. Примечательно поведение GPT-5.4: если при обычной проверке качества ответов модель набирает 87,1 балла, то при требовании подтвердить свои слова источниками её показатель падает до 59.

Трудности открытых моделей и сложной верстки

Для открытых систем ситуация выглядит еще менее оптимистично. Самая мощная из свободно доступных моделей, Qwen3-VL-235B-A22B, набрала лишь 22,5 балла, а компактные решения часто не дотягивают и до 10. Это создает серьезные риски при их использовании в финтехе или здравоохранении, где отсутствие проверяемого «бумажного следа» делает автоматизацию процессов юридически небезопасной.

Сложность задачи напрямую зависит от визуальной структуры документа. ИИ уверенно работает с академическими статьями, имеющими строгую сетку, но пасует перед журналами и газетами с многослойной версткой. В таких случаях точность падает даже у флагманских моделей, поскольку им приходится не просто считывать текст, а интерпретировать положение элементов, цвета и заголовки в контексте страницы.

Пока разработчики гонятся за параметрами, страдает базовая логика доказательства, что делает внедрение таких систем в аудит или юриспруденцию преждевременным аттракционом. Без решения проблемы координатной привязки ИИ останется лишь продвинутым поисковиком с воображением, а не инструментом верификации.

Локализация как ключ к точности

Интересным открытием стало то, что точность цитирования и качество ответа неразрывно связаны. В ходе дополнительных тестов исследователи искусственно ограничивали область поиска для моделей, предоставляя им только нужные страницы. Это привело к мгновенному росту качества ответов — например, показатели Qwen3-VL-8B выросли более чем на 13 пунктов. Это подтверждает, что эффективный контекстный инжиниринг критически важен: чем точнее модель находит источник, тем меньше она склонна к фантазиям.

Проблема «атрибутивной галлюцинации» может быть следствием самой системы обучения. Как отмечали ранее специалисты OpenAI, современные модели наказываются за неуверенность и поощряются за прямые ответы. В итоге ИИ предпочитает выдумать обоснование для верного (или кажущегося верным) тезиса, чем признать, что не может локализовать подтверждающий факт в массиве данных.