Веб-индустрия восстает против AI-скраперов

Wikipedia теряет трафик из-за AI-скраперов, а Cloudflare запускает систему защиты прав контента. Открытый веб борется за выживание в эпоху AI.

Оглавление

Кризис трафика: когда AI становится конкурентом
Техническое сопротивление: Content Signals Policy
Экономика знаний под угрозой
Будущее интернет-экономики

Интернет-экосистема переживает кризис идентичности: сайты-доноры контента для AI моделей теряют трафик, а создатели знаний остаются без вознаграждения. На фоне этого Cloudflare запускает систему защиты прав контента, которая может изменить правила игры.

Кризис трафика: когда AI становится конкурентом

Wikimedia Foundation обнародовала тревожную статистику: просмотры страниц Wikipedia реальными пользователями упали на 8% по сравнению с аналогичным периодом 2024 года. Изначально казалось, что трафик растет, особенно из Бразилии, но после обновления систем обнаружения ботов выяснилось — это были не люди, а изощренные боты, маскирующиеся под реальных пользователей для сбора контента.

Данные Pew Research подтверждают тенденцию: когда Google показывает AI-сводку, только 8% пользователей переходят на исходные сайты против 15% в случаях без AI-суммаризации. Для вопросов, начинающихся с «кто», «что», «когда» или «почему», Google теперь активирует AI-сводки в 60% случаев.

Wikipedia по-прежнему используется — просто теперь она стала невидимой. Практически каждая большая языковая модель обучается на Wikipedia, а поисковые системы используют ее информацию для ответов на вопросы. Но если люди никогда не посещают сайт, кто будет продолжать создавать и обновлять все эти знания?

Техническое сопротивление: Content Signals Policy

В ответ на эту проблему Cloudflare запустила Content Signals Policy — дополнение к файлам robots.txt, позволяющее владельцам сайтов выражать предпочтения относительно использования их контента после доступа к нему. Система предлагает три сигнала с настройками «да» или «нет»:

search: Можно ли использовать это для построения поискового индекса?
ai-input: Можно ли вводить это в AI-модели для ответов в реальном времени?
ai-train: Можно ли использовать это для обучения или дообучения AI-моделей?

Например, если вы хотите, чтобы поисковые системы индексировали ваш контент, но не использовали его для AI-обучения, добавьте в robots.txt: Content-Signal: search=yes, ai-train=no

Cloudflare уже развертывает эту систему для 3,8 млн доменов, использующих их управляемую функцию robots.txt, автоматически сигнализируя, что они не хотят использовать свой контент для AI-обучения.

Экономика знаний под угрозой

Открытый веб находится на перепутье. Если AI-компании продолжат собирать контент без атрибуции и не будут возвращать трафик, создатели теряют стимул к публикации. Добровольцы Wikipedia перестают вносить вклад. Издательства закрываются. Вся экосистема, делающая интернет ценным, начинает рушиться.

Сигналы контента, конечно, не являются техническим блоком — недобросовестные участники все равно могут их игнорировать. Но они создают четкий, стандартизированный способ для владельцев сайтов сказать «вот мои правила». В сочетании с реальными инструментами принуждения, такими как WAF и Bot Management от Cloudflare, они дают создателям хотя бы некоторый контроль обратно.

Интересно наблюдать, как интернет-инфраструктура пытается самоорганизоваться против AI-колонизации. Cloudflare фактически создает цифровые «правила приличия» для AI-скрапинга — что-то вроде современного аналога robots.txt, но для эпохи больших языковых моделей. Проблема в том, что технические сигналы без юридической поддержки — это как вежливая просьба к вооруженному грабителю. Реальная битва будет происходить в судах и законодательных органах.

Будущее интернет-экономики

В течение 25 лет сделка была простой: вы могли собирать контент, но отправляли реферальный трафик и давали атрибуцию. Эта сделка сейчас практически мертва. Теперь мы боремся за то, чтобы понять, что будет дальше.

Открытый веб стоит спасать, но давайте зададим более сложный вопрос: было ли использование Google для поиска случайного сайта, который оказался первым в рейтинге, когда-либо правильным способом организации и представления доверенной информации? Например, почему интернет так и не получил настоящего эквивалента «TV Guide» — сертифицированного единого источника истины для самых авторитетных источников информации?

Вместо Google как привратника, AI мог бы помочь нам создать что-то лучшее, чем эра поисковых посредников: прямые связи между пользователями и авторитетными источниками, если они должным образом атрибутированы и оплачены.

Но вот загвоздка: это работает только если мы решим проблему бизнес-модели создателя. Создатели должны получать оплату, когда их работа используется, будь то через атрибуцию, которая привлекает трафик, прямые лицензионные сделки или новые структуры компенсации, которые мы еще не придумали. Если создатели не получают долю от дохода с рекламы, то им понадобится доля от токенного дохода, чтобы продолжать генерировать ценный контент.

Сообщает The Neuron Daily.

Новости

Веб-индустрия и СМИ восстают против ИИ-скраперов, из-за которых теряют трафик

Кризис трафика: когда AI становится конкурентом

Техническое сопротивление: Content Signals Policy

Экономика знаний под угрозой

Будущее интернет-экономики

Еще интереснее

Венчурный инвестор Винод Хосла прогнозирует автоматизацию 80% рабочих мест к 2040 году

Индийские железные дороги активно внедряют ИИ для мониторинга инфраструктуры

Медиагигант Canal+ внедряет технологии OpenAI и Google Cloud в персонализацию контента

Британские топ-менеджеры стали чаще доверять LLM принятие управленческих решений

Оставить комментарий