ИИ-галлюцинации в науке: рост фейковых цитат в 12 раз

Масштабный аудит 2,5 миллионов биомедицинских статей выявил резкий всплеск вымышленных цитат, созданных нейросетями, что ставит под угрозу точность медицинских протоколов.

Оглавление

Хронология аномального роста
Риски для клинической практики
Пути решения проблемы

Научное сообщество столкнулось с новой формой цифрового загрязнения, которая ставит под удар фундамент доказательной медицины. Согласно масштабному исследованию, опубликованному в The Lancet, о котором пишет The Decoder, количество сфабрикованных цитат в биомедицинских статьях увеличилось более чем в двенадцать раз с начала 2023 года. Исследователи из Колумбийского университета обнаружили, что галлюцинации языковых моделей теперь не просто забавные ошибки в чатах, а системная проблема рецензируемой литературы.

Команда под руководством Максима Топаза проанализировала колоссальный массив данных — около 2,5 миллионов работ из открытого архива PubMed Central. Из почти 100 миллионов проверенных ссылок тысячи оказались «пустышками»: их названия отсутствуют в крупнейших базах данных, таких как PubMed, Crossref или Google Scholar. Примечательно, что эти фейковые источники выглядят пугающе достоверно, имитируя стилистику реальных ученых и формат уважаемых журналов.

Хронология аномального роста

Динамика процесса позволяет проследить четкую связь с развитием технологий. До конца 2023 года уровень фальсификаций оставался стабильно низким — около четырех случаев на 10 000 статей. Однако уже к середине 2024 года начался резкий подъем, который к началу 2026 года превратился в вертикальную кривую, достигнув показателя в 56,9 сфабрикованных ссылок на 10 000 работ. Этот временной лаг в 100–200 дней как раз соответствует среднему циклу прохождения статьи от подачи в редакцию до публикации.

Вероятной причиной эксперты называют бесконтрольное использование больших языковых моделей (LLM) при написании текстов. Проблема усугубляется тем, что галлюцинированные ссылки идеально вписываются в контекст: они касаются узких тем, используют имена существующих исследователей и указывают правдоподобные годы выпуска. В одном из случаев, касающемся урологии, 18 из 30 ссылок в статье оказались плодом воображения алгоритма, хотя внешне они ничем не выдавали свою фиктивную природу.

Риски для клинической практики

Наибольшее беспокойство вызывает тот факт, что чаще всего поддельные ссылки встречаются в обзорных статьях — их концентрация там на 57% выше. Поскольку именно обзоры ложатся в основу клинических рекомендаций, по которым врачи лечат пациентов, компрометация доказательной базы может иметь вполне реальные человеческие последствия.

Если фундамент протокола лечения состоит из несуществующих исследований, вся цепочка принятия медицинских решений теряет свою легитимность.

Система научной коммуникации пока не выработала иммунитет к этой угрозе. На момент проведения аудита более 98% проблемных статей оставались без какой-либо реакции со стороны издателей. Тем не менее, первые шаги уже предпринимаются: площадка Arxiv ужесточила санкции за использование непроверенных данных из LLM, вплоть до годового бана для авторов. Также появляются специализированные инструменты вроде CiteAudit, предназначенные для автоматизированной верификации цитирований.

Пути решения проблемы

Чтобы защитить чистоту науки и доверие к ней, исследователи предлагают внедрить четыре обязательных этапа проверки. Эти меры могут показаться избыточными, но в условиях нынешнего «шума» они становятся необходимостью:

Внедрение автоматизированных систем проверки библиографии на этапе подачи рукописи.
Добавление метаданных о научной честности (integrity metadata) в наборы данных статей.
Проведение ретроспективного скрининга уже опубликованных материалов для выявления скрытых ошибок.
Создание специализированной категории «сфабрикованные ссылки» в базах данных по научной этике.

Иронично, но сами авторы исследования признались, что использовали Claude для написания кода и корректуры текста. Это лишний раз подчеркивает, что проблема не в самих инструментах, а в уровне ответственности тех, кто нажимает кнопку «сгенерировать», забывая, что в науке за каждым словом должна стоять проверяемая реальность, а не статистическая вероятность следующего токена.