Оглавление
После того, как Anthropic пришлось улаживать 1,5-миллиардный спор, индустрия искусственного интеллекта столкнулась с системной проблемой: как легально получать данные для обучения моделей. На фоне более 40 ожидающих рассмотрения исков о нелицензированном использовании контента группа технологических экспертов во главе с сооснователем стандарта RSS представляет решение, которое может изменить правила игры.
Техническая и юридическая инфраструктура
Протокол Real Simple Licensing (RSL) предлагает двухуровневый подход. С технической стороны — машиночитаемые лицензионные соглашения, встраиваемые в файлы robots.txt. С юридической — коллективная организация RSL Collective, аналогичная ASCAP в музыке, которая будет вести переговоры и распределять роялти.
Среди первых участников системы:
- Yahoo, Reddit, Medium, O’Reilly Media
- Ziff Davis (владелец Mashable и CNET)
- Internet Brands (WebMD), People Inc., The Daily Beast
Проблема атрибуции в обучении ИИ
Ключевой вызов системы — отслеживание использования конкретных данных в процессе обучения языковых моделей. В отличие от музыки, где легко определить факт проигрывания композиции, в ИИ практически невозможно доказать, что конкретный документ был использован при тренировке модели, если этот процесс не логировался специально.
Ирония ситуации в том, что индустрия, построенная на анализе данных, теперь сама столкнулась с проблемой происхождения данных. Технически отслеживание вклада отдельных источников в обучение модели — задача нетривиальная, особенно для небольших издателей. RSL выглядит попыткой создать хоть какой-то стандарт в этом правовом вакууме, но придется ли AI-гигантам по душе добровольно платить за то, что они годами брали бесплатно?
Экономические реалии и перспективы
Как отмечают создатели RSL, некоторые издатели уже заключают индивидуальные сделки — Reddit, например, получает около 60 миллионов долларов ежегодно от Google за использование своих данных. Однако для небольших издателей коллективное лицензирование через RSL может стать единственным способом монетизации их контента.
Вопрос в том, будут ли крупные AI-лаборатории добровольно присоединяться к системе, когда у них есть доступ к бесплатным наборам данных вроде Common Crawl. Как показывает недавний конфликт между Cloudflare и Perplexity, разграничение между веб-скрейпингом и машинным просмотром остается размытым.
По материалам TechCrunch
Оставить комментарий