Оглавление

После того, как Anthropic пришлось улаживать 1,5-миллиардный спор, индустрия искусственного интеллекта столкнулась с системной проблемой: как легально получать данные для обучения моделей. На фоне более 40 ожидающих рассмотрения исков о нелицензированном использовании контента группа технологических экспертов во главе с сооснователем стандарта RSS представляет решение, которое может изменить правила игры.

Техническая и юридическая инфраструктура

Протокол Real Simple Licensing (RSL) предлагает двухуровневый подход. С технической стороны — машиночитаемые лицензионные соглашения, встраиваемые в файлы robots.txt. С юридической — коллективная организация RSL Collective, аналогичная ASCAP в музыке, которая будет вести переговоры и распределять роялти.

Среди первых участников системы:

  • Yahoo, Reddit, Medium, O’Reilly Media
  • Ziff Davis (владелец Mashable и CNET)
  • Internet Brands (WebMD), People Inc., The Daily Beast

Проблема атрибуции в обучении ИИ

Ключевой вызов системы — отслеживание использования конкретных данных в процессе обучения языковых моделей. В отличие от музыки, где легко определить факт проигрывания композиции, в ИИ практически невозможно доказать, что конкретный документ был использован при тренировке модели, если этот процесс не логировался специально.

Ирония ситуации в том, что индустрия, построенная на анализе данных, теперь сама столкнулась с проблемой происхождения данных. Технически отслеживание вклада отдельных источников в обучение модели — задача нетривиальная, особенно для небольших издателей. RSL выглядит попыткой создать хоть какой-то стандарт в этом правовом вакууме, но придется ли AI-гигантам по душе добровольно платить за то, что они годами брали бесплатно?

Экономические реалии и перспективы

Как отмечают создатели RSL, некоторые издатели уже заключают индивидуальные сделки — Reddit, например, получает около 60 миллионов долларов ежегодно от Google за использование своих данных. Однако для небольших издателей коллективное лицензирование через RSL может стать единственным способом монетизации их контента.

Вопрос в том, будут ли крупные AI-лаборатории добровольно присоединяться к системе, когда у них есть доступ к бесплатным наборам данных вроде Common Crawl. Как показывает недавний конфликт между Cloudflare и Perplexity, разграничение между веб-скрейпингом и машинным просмотром остается размытым.

По материалам TechCrunch