Оглавление

Новое исследование выявило тревожную тенденцию: крупные языковые модели активно используют в обучении материалы из отозванных научных публикаций. Это создает серьезные риски для достоверности информации, которую генерируют алгоритмы.

Масштабы проблемы

Анализ показал, что в обучающих данных популярных LLM-моделей содержатся сотни отозванных статей из ведущих научных журналов. Эти материалы включают исследования с методологическими ошибками, фальсифицированные данные и публикации с этическими нарушениями.

Технические причины

Проблема возникает из-за способа формирования обучающих датасетов. Большинство компаний используют автоматический сбор текстов из открытых источников, включая научные архивы. Системы не всегда эффективно фильтруют отозванные материалы, которые формально остаются доступными онлайн.

Вот так ИИ, позиционируемый как инструмент научного прогресса, может непреднамеренно стать распространителем научного мусора. Это классическая проблема «мусор на входе — мусор на выходе», только в масштабах, которые могут повлиять на целые области знаний.

Последствия для науки и образования

Использование недостоверной информации из отозванных статей может привести к:

  • Распространению ошибочных научных концепций
  • Некорректным рекомендациям в медицине и других критических областях
  • Подрыву доверия к ИИ-системам в академической среде

Пути решения

Разработчики ИИ начинают осознавать проблему. Некоторые компании внедряют системы проверки источников и сотрудничают с научными издательствами для получения актуальных данных об отозванных публикациях.

По сообщению MIT Technology Review, эта проблема требует скоординированных усилий со стороны разработчиков ИИ, научных издательств и исследовательского сообщества.