ArXiv забанит авторов на год за бесконтрольное использование ИИ

Научный репозиторий ArXiv вводит жесткие меры против авторов, злоупотребляющих ИИ: годовой бан за публикацию текстов с галлюцинациями и ошибками нейросетей.

Оглавление

Механика санкций и ответственность исследователей
Контекст проблемы в научной среде

Популярный репозиторий препринтов ArXiv, ставший за десятилетия фундаментом для обмена знаниями в области математики и компьютерных наук, ужесточает правила игры в эпоху генеративных моделей. Как сообщает TechCrunch, площадка намерена отстранять авторов от публикаций сроком на один год, если будет обнаружено, что текст исследования был полностью перепоручен искусственному интеллекту без должной проверки человеком.

Платформа, долгое время находившаяся под крылом Корнельского университета, недавно перешла в статус независимой некоммерческой организации. Этот маневр, вероятно, должен упростить привлечение финансирования для борьбы с так называемым «ИИ-шлаком» — потоком низкокачественных работ, которые лишь имитируют научную деятельность, не привнося в нее реальной ценности.

Томас Диттерих, возглавляющий секцию компьютерных наук ArXiv, подчеркнул в социальных сетях, что наличие в работе «неоспоримых доказательств» отсутствия проверки со стороны авторов лишает доверия все содержание документа. Под такими уликами понимаются галлюцинации в списках литературы или забытые фрагменты диалогов с чат-ботом, которые порой по невнимательности попадают в финальную версию PDF-файла.

Механика санкций и ответственность исследователей

Процедура наказания выстроена по принципу «одного удара», хотя и подразумевает систему сдержек. Сначала модераторы фиксируют нарушение, затем руководители разделов подтверждают улики, после чего накладывается бан. Если автора ловят на копировании плагиата, предвзятых суждений или ложных ссылок из LLM, он теряет право публиковаться на ресурсе в течение 12 месяцев.

Важно понимать, что ArXiv не запрещает использование нейросетей как инструментов помощи, например, для редактирования стиля или структурирования идей. Однако администрация настаивает на полной ответственности исследователей за итоговый продукт. После окончания срока бана авторы столкнутся с дополнительным барьером: их новые работы будут приниматься на препринт-сервер только после того, как пройдут официальное рецензирование в авторитетных научных изданиях.

Технически выявить тонко настроенную модель практически невозможно, и площадка рискует превратиться в поле для охоты на ведьм, где пострадают менее внимательные, но честные ученые, в то время как профессиональные ‘фабрикаторы’ просто научатся лучше чистить промпты. В итоге мы получаем стратегию запугивания вместо создания надежных инструментов верификации данных.

Контекст проблемы в научной среде

Проблема сфабрикованных цитат становится системной. Недавние исследования в области биомедицины подтверждают резкий рост числа ложных ссылок, что напрямую связывают с использованием больших языковых моделей. Впрочем, ученые здесь не одиноки — история знает примеры, когда даже юристы крупных технологических компаний попадали в неловкие ситуации из-за галлюцинаций Claude или ChatGPT.

Ранее ArXiv уже вводил систему поручительства, требуя от новых авторов рекомендации от заслуженных участников сообщества. Нынешние меры — это логичное продолжение попыток сохранить чистоту научной коммуникации в мире, где создание текста перестало быть трудозатратным процессом, а проверка фактов, напротив, требует все большего интеллектуального ресурса.