Reddit судится с Perplexity AI за сбор данных пользователей

Reddit подал иск против Perplexity AI и трех других компаний за незаконный сбор данных пользователей в промышленных масштабах для обучения AI-моделей.

Оглавление

Подробности иска
Стратегия обхода защиты
Бизнес-модель под вопросом
Тенденция защиты данных

Социальная платформа Reddit подала иск против компании искусственного интеллекта Perplexity AI и трех других организаций, обвинив их в создании «промышленного масштаба незаконной экономики» по сбору комментариев миллионов пользователей для коммерческой выгоды. По сообщению PBS NewsHour, это уже второй подобный иск от Reddit против AI-компаний.

Подробности иска

Иск, поданный в федеральный суд Нью-Йорка, нацелен на базирующуюся в Сан-Франциско Perplexity, создателя AI-чата и «ответной машины», конкурирующей с Google, ChatGPT и другими в сфере онлайн-поиска. Также в иске упоминаются литовская компания по сбору данных Oxylabs UAB, веб-домен AWMProxy, который Reddit описывает как «бывший российский ботнет», и техасский стартап SerpApi, который указывает Perplexity в качестве клиента на своем сайте.

Иск обвиняет компании в недобросовестной конкуренции и неосновательном обогащении, а также утверждает, что некоторые из них нарушили законы США об авторском праве.

Стратегия обхода защиты

Сбор общедоступных онлайн-данных является распространенной практикой, но Reddit сравнивает компании, на которые подает в суд, с «потенциальными грабителями банков», которые не могут попасть в банковское хранилище, поэтому взламывают инкассаторскую машину вместо этого. В иске утверждается, что они обходят собственные меры защиты Reddit от сбора данных, одновременно «обходя контроль Google и собирая контент Reddit напрямую из результатов поисковой системы Google».

Бен Ли, главный юрист Reddit, заявил: «Поскольку они не могут собирать данные с Reddit напрямую, они маскируют свои личности, скрывают свои местоположения и маскируют свои веб-скрейперы, чтобы украсть контент Reddit из поиска Google. Perplexity является готовым клиентом по крайней мере одного из этих сборщиков, выбирая покупку украденных данных вместо заключения законного соглашения с самим Reddit».

Интересно наблюдать, как платформы, которые годами зарабатывали на пользовательском контенте, внезапно становятся ревностными защитниками прав авторов, когда появляется кто-то, кто хочет делать то же самое, но без лицензионных отчислений. Это напоминает классическую схему: сначала разрешить бесплатный обед, а потом начать взимать плату за вход.

Бизнес-модель под вопросом

Reddit ранее заключал лицензионные соглашения с Google, OpenAI и другими компаниями, которые платят за возможность обучать свои AI-системы на публичных комментариях более чем 100 миллионов ежедневных пользователей Reddit. Эти лицензионные сделки помогли 20-летней онлайн-платформе собрать деньги перед ее дебютом на Уолл-стрит в качестве публичной компании в прошлом году.

В ответ на иск Perplexity заявила, что еще не получила документы, но «будет всегда бороться за права пользователей на свободный и справедливый доступ к общественному знанию. Наш подход остается принципиальным и ответственным, поскольку мы предоставляем фактические ответы с точным AI, и мы не потерпим угроз открытости и общественным интересам».

Oxylabs выразила «шок и разочарование» и заявила, что «не будет колебаться защищаться от этих обвинений». Компания утверждает, что «ни одна компания не должна претендовать на владение общественными данными, которые им не принадлежат».

Тенденция защиты данных

Этот иск является частью растущей тенденции, когда платформы социальных медиа начинают активно защищать свои данные от AI-компаний, которые используют их для обучения моделей. Вместе с оцифрованными книгами и новостными статьями, такие веб-сайты, как Wikipedia и Reddit, являются глубокими хранилищами письменных материалов, которые могут помочь обучить AI-ассистента шаблонам человеческого языка.

Reddit уже подал аналогичный иск против другой крупной AI-компании Anthropic в июне, утверждая, что компания проигнорировала обращения Reddit о прекращении использования ее контента. Этот случай изначально был подан в суд штата Калифорния, но позже был переведен в федеральный суд, и слушание назначено на январь.

Битва за данные для обучения AI набирает обороты, и этот судебный процесс может стать прецедентным для определения границ того, что считается «общедоступными» данными и какие права имеют платформы на контент, создаваемый их пользователями.

Новости

Reddit подает в суд на Perplexity AI за незаконный сбор данных пользователей

Подробности иска

Стратегия обхода защиты

Бизнес-модель под вопросом

Тенденция защиты данных

Еще интереснее

OpenAI представила Codex Security — инструмент для поиска уязвимостей в коде

Microsoft обнаружил, что шпионские ИИ-расширения браузеров украли данные 900 тысяч пользователей

Накопление скрытых ошибок в корпоративных ИИ-системах может быть опаснее восстания машин

OpenAI блокирует сети аккаунтов, использовавшихся мошенниками для ИИ-скама

Оставить комментарий