Двойные стандарты техногигантов в использовании данных для ИИ

Крупные компании массово используют защищенный контент для обучения ИИ, одновременно запрещая другим делать то же самое с их платформами.

Оглавление

Крупнейшее в истории нарушение интеллектуальных прав
Миллионы видео YouTube в тренировочных наборах
Системное противоречие отрасли

Крупнейшие технологические компании создали систему, где они массово используют защищенный авторским правом контент для обучения своих ИИ-систем, одновременно запрещая другим делать то же самое с их платформами. Двухлетнее расследование Международной конфедерации музыкальных издателей (ICMP) и отдельный анализ The Atlantic выявили систематическую практику, которую в отрасли называют «цифровым лицемерием».

Крупнейшее в истории нарушение интеллектуальных прав

Согласно эксклюзивному отчету Billboard, ICMP утверждает, что Google, Microsoft, Meta*, OpenAI и X обучали свои системы на защищенной авторским правом музыке в огромных масштабах. Организация, собиравшая доказательства в течение двух лет, называет это «крупнейшим нарушением интеллектуальных прав в истории человечества».

Досье ICMP включает частные наборы данных, показывающие, как музыкальные приложения Udio и Suno сканируют YouTube, анализы, предполагающие, что Llama 3 от Meta* обучалась на текстах песен The Weeknd и Ed Sheeran, а также судебные документы по иску издателей против Anthropic.

Ирония ситуации в том, что те же компании, которые требуют свободного доступа к данным для «развития открытого интернета», создают максимально закрытые экосистемы вокруг своего контента. Это не вопрос технологии или инноваций — это чистая рыночная стратегия по установлению контроля над цифровым пространством.

Миллионы видео YouTube в тренировочных наборах

The Atlantic сообщает, что как минимум 15,8 миллионов видео YouTube с более чем 2 миллионов каналов были скачаны без разрешения и включены в по крайней мере 13 наборов данных. Почти миллион из них — обучающие ролики.

Хотя массовое скачивание нарушает условия использования YouTube, платформа практически ничего не делает для предотвращения этого, пишет The Atlantic. Специальный инструмент позволяет пользователям проверить, появляются ли конкретные видео в этих наборах.

Среди компаний, использующих эти данные для обучения:

Microsoft
Meta*
Amazon
Nvidia
Runway
ByteDance
Snap
Tencent

Новостные и образовательные каналы особенно уязвимы: BBC с как минимум 33 000 видео, TED с почти 50 000, плюс сотни тысяч от индивидуальных создателей.

Системное противоречие отрасли

Отчеты подчеркивают центральное противоречие: в то время как компании выступают за широкие исключения из авторского права для обучения ИИ, они сами запрещают сканирование своих платформ в своих условиях обслуживания.

ICMP указывает на положения в Facebook, YouTube, X, Google, OpenAI, Microsoft и Adobe, которые требуют предварительного письменного согласия для использования данных.

Расследования также опровергают распространенный аргумент индустрии о том, что раскрытие тренировочных данных слишком сложно. Данные, изученные ICMP, и утечки из компаний вроде Runway показывают обратное: сканированный контент тщательно маркируется метаданными, включая исполнителя, жанр и темп, что предполагает, что детальная прослеживаемость — такая, как предусмотрена AI Act ЕС — была бы возможна.

По материалам The Decoder

* Meta (признана экстремистской и запрещена в РФ)

Новости

Техногиганты массово нарушают авторские права на данные для обучения ИИ

Крупнейшее в истории нарушение интеллектуальных прав

Миллионы видео YouTube в тренировочных наборах

Системное противоречие отрасли

Еще интереснее

OpenAI представила Codex Security — инструмент для поиска уязвимостей в коде

Microsoft обнаружил, что шпионские ИИ-расширения браузеров украли данные 900 тысяч пользователей

Накопление скрытых ошибок в корпоративных ИИ-системах может быть опаснее восстания машин

OpenAI блокирует сети аккаунтов, использовавшихся мошенниками для ИИ-скама

Оставить комментарий