Оглавление

Исследователи из Университета Стоуни-Брук и Колумбийской школы права провели эксперимент, в котором профессиональные писатели и три крупные системы ИИ создавали тексты в стиле 50 известных авторов, включая лауреата Нобелевской премии Хан Кан и Букеровской премии Салмана Рушди.

В исследовании участвовали 159 человек — 28 экспертов по литературе и 131 неспециалист с платформы Prolific. Они оценивали тексты, не зная, кто их написал — человек или ИИ.

Методы исследования

Ученые использовали два подхода для имитации стиля:

  • Контекстные промпты — одинаковые инструкции и примеры текстов для GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro
  • Дообучение моделей — только GPT-4o поддерживал необходимые функции API, поэтому команда купила цифровые копии книг 30 авторов и обучила отдельные модели для каждого

Участники сравнивали тексты и выбирали, какой из них лучше. Для оценки стиля они также видели отрывки из оригинальных произведений авторов. Каждый текст оценивался несколькими читателями для обеспечения надежности результатов.

Результаты: ИИ против человеческого творчества

Результаты показали зависимость от метода ИИ. При базовых контекстных промптах эксперты явно предпочитали тексты, написанные людьми, тогда как неспециалисты разделились во мнениях.

После дообучения ситуация кардинально изменилась: эксперты выбирали тексты, созданные ИИ, в восемь раз чаще по стилю и в два раза чаще по качеству письма.

Статистические графики предпочтений ИИ до и после тонкой настройки

Современные детекторы ИИ отметили 97% стандартных выводов ИИ как сгенерированные машиной, но только три процента дообученных текстов.

Наиболее удивительным открытием стало то, что объем обучающих данных не имел значения. Авторов всего с двумя опубликованными книгами, таких как Тони Тулатимутте, имитировали так же хорошо, как и плодовитых писателей вроде Харуки Мураками.

Анализ уровня автора: предпочтения ИИ в зависимости от объема обучающих данных

Мы десятилетиями учили компьютеры писать как люди, а теперь учим их писать лучше людей. Исследование показывает, что проблема уже не в том, сможет ли ИИ писать хорошо, а в том, сможем ли мы отличить его работу от человеческой. Особенно тревожна экономика: $81 за стиль писателя против $25,000 за человеческий труд — это не просто конкурентное преимущество, это фундаментальный пересмотр стоимости творчества.

Юридические последствия

Эти результаты появляются в момент, когда американские суды рассматривают иски о том, как компании ИИ получают и используют защищенные авторским правом материалы. В деле против Anthropic выяснилось, что компания скачала как минимум семь миллионов книг из незаконных источников вроде LibGen и Pirate Library Mirror, отсканировала их и удалила оригиналы.

Авторы исследования утверждают, что их работа может стать ключевой частью продолжающихся дебатов о «добросовестном использовании». Центральный вопрос — вредят ли имитации ИИ рынку оригинальных произведений. Если читатели предпочитают имитации, созданные ИИ, это может стать четким доказательством рыночного ущерба.

Бюро авторского права США уже предупредило, что ИИ может вытеснить оригинальные произведения с рынка, даже если не копирует их дословно.

Исследователи предлагают различать универсальные модели ИИ и те, что обучены имитировать конкретных авторов. Они утверждают, что для целевой имитации мало правовых оснований, и рекомендуют либо запретить ИИ копировать отдельных авторов, либо требовать четкой маркировки текстов, сгенерированных ИИ.

По материалам The Decoder.