Тест детекторов ИИ от Authors Guild: результаты и риски

Исследование Authors Guild выявило, что некоторые детекторы ИИ ошибочно принимают человеческие тексты за машинные, создавая риски для авторов.

Оглавление

Цифры против интуиции: результаты тестирования
Проблема «черного ящика» и этические риски

Проверка популярных сервисов для обнаружения машинного текста, проведенная организацией Authors Guild, выявила критический разброс в их точности: пока одни инструменты безошибочно узнают человеческий стиль, другие клеймят его как работу алгоритмов. Как сообщает The Decoder, в ходе эксперимента использовались статьи, опубликованные в период с 2020 по 2022 год, когда генеративные модели еще не получили массового распространения.

Результаты оказались полярными. Системы Pangram и Grammarly продемонстрировали идеальный результат, подтвердив человеческое происхождение всех десяти предложенных текстов. В то же время сервис Sidekicker потерпел фиаско, распознав во всех без исключения статьях следы искусственного интеллекта, причем в двух случаях уверенность алгоритма достигла 100 процентов.

Цифры против интуиции: результаты тестирования

Методология исследования была предельно прозрачной: организаторы взяли архивные материалы Authors Guild, которые по определению не могли быть созданы нейросетями. Это позволило проверить детекторы на склонность к ложноположительным срабатываниям — ошибкам, которые в реальной жизни могут стоить профессиональному писателю карьеры или крупного контракта.

Тема статьи	ZeroGPT	Originality.ai	Sidekicker.ai	Grammarly	Pangram
Судебные иски о цензуре	14.3%	0.0%	85.0%	0.0%	0.0%
Антимонопольные разбирательства	5.3%	0.0%	100.0%	0.0%	0.0%
Авторское право и Энди Уорхол	40.7%	0.0%	79.0%	0.0%	0.0%
Некролог Джоан Дидион	66.0%	0.0%	82.0%	9.0%	0.0%
Пулитцеровская премия Л. Эрдрич	76.3%	0.0%	100.0%	0.0%	0.0%

Детектор Originality.ai также показал достойные результаты, лишь в редких случаях указывая на минимальную вероятность участия ИИ (около 1%). Напротив, ZeroGPT продемонстрировал пугающую нестабильность, оценивая человеческие тексты как машинные с вероятностью от 5% до 76%. Подобная волатильность делает использование таких инструментов в юридических или академических целях довольно сомнительной затеей.

Парадокс современных детекторов в том, что они наказывают за профессионализм: чем чище и лаконичнее слог автора, тем больше он похож на статистически усредненный идеал языковой модели. Мы строим системы контроля на зыбком фундаменте математического сходства, забывая, что ИИ лишь имитирует мастерство, к которому лучшие писатели шли десятилетиями. В итоге инструмент борьбы со спамом превращается в гильотину для талантов.

Проблема «черного ящика» и этические риски

Техническая сторона вопроса остается туманной даже для самих создателей ПО. Генеральный директор Pangram Макс Сперо признает, что его продукт по сути является «черным ящиком». Детекторы фиксируют единообразие и специфическую структуру аргументации, характерную для LLM, но не могут детально объяснить причины вердикта. Это создает ситуацию, в которой обвинение невозможно оспорить рациональными аргументами.

В Authors Guild подчеркивают, что профессиональные тексты часто совпадают со статистическими паттернами ИИ-вывода, поскольку модели обучались именно на качественной литературе и журналистике. Это порождает замкнутый круг, где стремление к ясности изложения автоматически повышает риск попасть под подозрение алгоритма. Издателям рекомендуется не полагаться на автоматику как на единственный источник истины.

Дискуссия о детекции неизбежно перерастает в культурный спор о ценности труда. Сторонники проверки настаивают на защите «социального контракта» между автором и читателем, где ценность текста определяется затраченными усилиями. Однако вопрос о том, можно ли измерить качество литературы только лишь отсутствием помощи алгоритмов, остается открытым, особенно на фоне того, как ИИ становится обыденным инструментом для структурирования мыслей.