Оглавление

Исследователи в области ментального здоровья, использующие ChatGPT для ускорения работы, столкнулись с тревожным открытием: более половины ссылок, генерируемых искусственным интеллектом, либо полностью выдуманы, либо содержат серьезные ошибки. Таковы результаты исследования австралийских ученых из Университета Дикин.

Масштабы проблемы с цитированием

Когда ученые поручили GPT-4o написать шесть литературных обзоров по темам ментального здоровья, они обнаружили, что почти 20% из 176 сгенерированных цитат были полностью сфабрикованы. Среди 141 реальной ссылки 45,4% содержали ошибки — неправильные даты публикации, некорректные номера страниц или недействительные идентификаторы DOI.

В общей сложности только 77 из 176 цитат (43,8%) были одновременно реальными и точными. Это означает, что 56,2% либо выдуманы, либо содержат ошибки. Для исследователей, испытывающих давление необходимости публиковаться и все чаще обращающихся к ИИ-инструментам, это исследование, опубликованное в JMIR Mental Health, раскрывает тревожную закономерность.

Проблема фантомных публикаций

Сфабрикованные цитаты не выглядели очевидно поддельными. Когда GPT-4o предоставлял DOI для выдуманной ссылки (33 из 35 сфабрикованных источников включали DOI), 64% ссылались на реальные публикации, но совершенно по другим темам. Человек, переходящий по такой ссылке, попадал на настоящую статью, что затрудняло обнаружение подделки без тщательной проверки.

Еще 36% фальшивых DOI были полностью недействительными или нефункциональными. В любом случае, такие цитаты не могли подтвердить утверждения, сделанные ИИ в сгенерированном тексте.

ИИ, созданный для обработки информации, становится источником дезинформации в научной среде. Особенно цинично выглядит то, что 64% фальшивых DOI ведут на реальные статьи — это создает иллюзию достоверности, которую сложно разоблачить без глубокой экспертизы. По сути, мы получаем научный эквивалент «правдоподобной лжи» — технологию, которая не столько помогает исследователям, сколько создает дополнительные проверочные барьеры.

Влияние тематики на точность ИИ

Ведущий автор Джейк Линардон и его коллеги проверили, зависит ли точность ИИ от известности темы и специфичности запроса. Они выбрали три психиатрических расстройства для эксперимента: большое депрессивное расстройство, компульсивное переедание и дисморфическое расстройство тела.

Точность цитирования GPT-4o значительно варьировалась в зависимости от темы:

  • Для большого депрессивного расстройства только 6% цитат были сфабрикованы
  • Для компульсивного переедания уровень подделки вырос до 28%
  • Для дисморфического расстройства тела — 29%

Среди реальных цитат точность составила 64% для депрессии, 60% для компульсивного переедания и всего 29% для дисморфического расстройства. Эта закономерность предполагает, что ChatGPT может работать лучше по хорошо изученным темам с обильными тренировочными данными.

Растущее использование ИИ в исследованиях

Эти результаты появляются на фоне ускорения внедрения ИИ в научную среду. Недавний опрос показал, что почти 70% ученых в области ментального здоровья используют ChatGPT для исследовательских задач, включая написание текстов, анализ данных и литературные обзоры.

Большинство пользователей отмечают, что инструменты повышают эффективность, но многие выражают обеспокоенность по поводу неточностей и вводящего в заблуждение контента.

Исследователи сталкиваются с растущим давлением необходимости часто публиковаться при одновременном выполнении преподавательских, кураторских и административных обязанностей. Инструменты, обещающие упростить литературные обзоры и ускорить написание, предлагают привлекательные решения для повышения продуктивности. Но принятие вывода ИИ без проверки создает серьезные риски.

Типы ошибок и их последствия

Фальшивые ссылки вводят читателей в заблуждение, искажают научное понимание и подрывают основы научной коммуникации. Цитаты направляют читателей к исходным доказательствам и способствуют накоплению знаний. Когда эти цитаты никуда не ведут или указывают на неправильные статьи, вся система разрушается.

Разные типы ошибок затрагивали разные части цитирования:

  • DOI имели самый высокий уровень ошибок — 36,2%
  • Списки авторов — самый низкий уровень ошибок — 14,9%
  • Годы публикации, названия журналов, номера томов и диапазоны страниц показали промежуточные значения

Рекомендации для исследователей и институтов

Команда Линардона подчеркивает, что весь контент, сгенерированный ИИ, требует тщательной проверки человеком. Каждая цитата должна проверяться по первоисточникам. Утверждения нуждаются в валидации. Ссылки должны подтверждаться на существование и действительно поддерживать заявления, приписываемые им.

Авторы также призывают журналы внедрить более сильные защитные механизмы. Одно из предложений включает использование программного обеспечения для обнаружения плагиата в обратном порядке. Например, цитаты, которые не вызывают совпадений в существующих базах данных, могут сигнализировать о сфабрикованных источниках, которые стоит исследовать более тщательно.

Академические учреждения должны разработать четкие политики относительно использования ИИ в научных публикациях, включая обучение тому, как идентифицировать галлюцинированные цитаты и правильно раскрывать, когда генеративный ИИ внес вклад в рукопись.

Исследование не обнаружило четких доказательств того, что новые версии ИИ решили проблему галлюцинаций, хотя прямые сравнения с более ранними моделями ограничены различиями в методологиях исследований.

По материалам StudyFinds