Протокол лицензирования данных ИИ от сооснователя RSS

Сооснователь RSS стандарта представил протокол Real Simple Licensing для массового лицензирования данных обучения ИИ. Систему уже поддержали Reddit, Yahoo и другие крупные издатели.

Оглавление

Техническая и юридическая инфраструктура
Проблема атрибуции в обучении ИИ
Экономические реалии и перспективы

После того, как Anthropic пришлось улаживать 1,5-миллиардный спор, индустрия искусственного интеллекта столкнулась с системной проблемой: как легально получать данные для обучения моделей. На фоне более 40 ожидающих рассмотрения исков о нелицензированном использовании контента группа технологических экспертов во главе с сооснователем стандарта RSS представляет решение, которое может изменить правила игры.

Техническая и юридическая инфраструктура

Протокол Real Simple Licensing (RSL) предлагает двухуровневый подход. С технической стороны — машиночитаемые лицензионные соглашения, встраиваемые в файлы robots.txt. С юридической — коллективная организация RSL Collective, аналогичная ASCAP в музыке, которая будет вести переговоры и распределять роялти.

Среди первых участников системы:

Yahoo, Reddit, Medium, O’Reilly Media
Ziff Davis (владелец Mashable и CNET)
Internet Brands (WebMD), People Inc., The Daily Beast

Проблема атрибуции в обучении ИИ

Ключевой вызов системы — отслеживание использования конкретных данных в процессе обучения языковых моделей. В отличие от музыки, где легко определить факт проигрывания композиции, в ИИ практически невозможно доказать, что конкретный документ был использован при тренировке модели, если этот процесс не логировался специально.

Ирония ситуации в том, что индустрия, построенная на анализе данных, теперь сама столкнулась с проблемой происхождения данных. Технически отслеживание вклада отдельных источников в обучение модели — задача нетривиальная, особенно для небольших издателей. RSL выглядит попыткой создать хоть какой-то стандарт в этом правовом вакууме, но придется ли AI-гигантам по душе добровольно платить за то, что они годами брали бесплатно?

Экономические реалии и перспективы

Как отмечают создатели RSL, некоторые издатели уже заключают индивидуальные сделки — Reddit, например, получает около 60 миллионов долларов ежегодно от Google за использование своих данных. Однако для небольших издателей коллективное лицензирование через RSL может стать единственным способом монетизации их контента.

Вопрос в том, будут ли крупные AI-лаборатории добровольно присоединяться к системе, когда у них есть доступ к бесплатным наборам данных вроде Common Crawl. Как показывает недавний конфликт между Cloudflare и Perplexity, разграничение между веб-скрейпингом и машинным просмотром остается размытым.

По материалам TechCrunch

Новости

Сооснователь RSS представил протокол для массового лицензирования данных ИИ

Техническая и юридическая инфраструктура

Проблема атрибуции в обучении ИИ

Экономические реалии и перспективы

Еще интереснее

OpenAI представила Codex Security — инструмент для поиска уязвимостей в коде

Microsoft обнаружил, что шпионские ИИ-расширения браузеров украли данные 900 тысяч пользователей

Накопление скрытых ошибок в корпоративных ИИ-системах может быть опаснее восстания машин

OpenAI блокирует сети аккаунтов, использовавшихся мошенниками для ИИ-скама

Оставить комментарий