Компания Cloudflare будет блокировать по умолчанию веб-скрапинг с помощью ИИ, а также экспериментирует с инструментами, которые позволят создателям контента взимать плату за такие сканирования сайтов.
Pay-per-crawl
Представители Cloudflare рассказывают в блоге, что функция pay-per-crawl в настоящее время находится на стадии приватной беты. В ее тестировании примет участие небольшое число издателей и создателей контента. Каждый из них сможет установить собственные цены, которые ИИ-боты должны будут заплатить перед тем, как начать скрапинг контента.
Генеральный директор Cloudflare Мэтью Принс (Matthew Prince) заявляет, что эта функция позволит интернету пережить «эру искусственного интеллекта».
«Оригинальный контент — это то, что делает интернет одним из величайших изобретений прошлого века, и очень важно, чтобы создатели продолжали его создавать, — пишет Принс. — ИИ-краулеры скрапят контент без каких-либо ограничений. Наша цель — вернуть власть в руки создателей, но при этом помочь ИИ-компаниям внедрять инновации. Речь идет о защите будущего свободного и динамичного интернета с помощью новой модели, которая устроит всех. Чтобы интернет пережил эру искусственного интеллекта, мы должны предоставить издателям контроль, которого они заслуживают, и построить новую экономическую модель, которая будет работать для всех — создателей и потребителей контента, будущих основателей ИИ-компаний и самого интернета».
В настоящее время подать заявку на участие в этом эксперименте могут все создатели контента, заинтересованные в бета-тестировании. В компании уверяют, что со временем они тоже смогут «получить вознаграждение за свой вклад в экономику ИИ».
Пока же только издатели, участвующие в бета-тесте, могут выбирать, какие боты получат доступ к тем или иным разделам их сайтов, экспериментируя с блокировкой всех ботов или разрешая определенным ботам доступ к отдельным типам контента.
Также инициатива Cloudflare дает возможность взимать плату с одних краулеров, позволяя другим скрапить контент бесплатно. Это должно позволить издателям, заключившим сделки с ИИ-компаниями, разрешить только «одобренный» скрапинг, защитив свой контент от других компаний, с которыми не заключены лицензионные соглашения.
В Cloudflare подчеркивают, что проект создается в партнерстве с ИИ-компаниями, которые могут только выиграть от наличия простого интерфейса для ведения переговоров с создателями контента. Также предполагается, что это поможет им перестать тратить средства на поиск низкокачественных источников данных.
«Без постоянного участия создателей контента ИИ-системы рискуют стать устаревшими, предвзятыми и менее надежными, что в итоге снизит доверие пользователей и ценность ИИ-продуктов, — пишут разработчики. — Cloudflare сотрудничает с ИИ-компаниями, чтобы предоставить им больше сигналов, а в конечном итоге повысить качество и релевантность контента, к которому они могут получить доступ. Здоровая, устойчивая экосистема оригинального контента имеет решающее значение для инноваций и актуальности ИИ».
При этом будущий успех или провал этой инициативы во многом будет зависеть от того, согласятся ли ИИ-компании платить цены, которые установят издатели. В компании рассчитывают, что со временем «возникнет прозрачный рынок, отражающий истинную ценность оригинального контента».
Также важную роль сыграет то, как именно Cloudflare будет обнаруживать ИИ-ботов. Пока это осуществляется посредством сообщений пользователей, а также на основе анализа паттернов массового трафика.
В Cloudflare полагают, что со временем система оплаты pay-per-crawl будет развиваться. Так, вероятно, в будущем издатели смогут использовать ее для «установления различных тарифов за разные пути и типы контента», что в перспективе позволит ввести динамическое ценообразование в среде ИИ-скрапинга.
По прогнозам Cloudflare, в результате ИИ-компании могут получить стимул для создания агентов, которые будут сканировать интернет в поисках лучших предложений по продаже контента для поддержки конкретных ИИ-продуктов.
«Представьте, что вы просите свою любимую программу глубокого анализа помочь разобраться в последних исследованиях в области лечения рака, подготовить юридическую справку или просто найти лучший ресторан в Сохо. А затем вы предоставляете этому агенту бюджет, который он сможет потратить на приобретение лучшего и наиболее релевантного контента», — рассказывают в Cloudflare.
Блокировка краулеров
В начале текущего года мы писали о нескольких проектах, авторы которых задались целью создать ИИ-компаниям как можно больше сложностей и защитить свои ресурсы и данные от агрессивных краулеров.
К примеру, автор проекта Nepenthes описывал свое детище как агрессивное и умышленно вредоносное ПО, предупреждая, что владельцам сайтов не стоит использовать его, если им не нравится ловить ИИ-краулеров и отправлять их в «бесконечный лабиринт» из статичных файлов без ссылок на выход, где они могут «застрять и бродить» месяцами.
Вскоре после энтузиастов и компания Cloudflare анонсировала новую функцию под названием «ИИ-лабиринт» (AI Labyrinth), направленную на борьбу с несанкционированным сбором данных и предоставление ботам фальшивого ИИ-контента. Инструмент был призван помешать ИИ-компаниям, краулеры которых без разрешения посещают сайты и собирают данные для обучения больших языковых моделей (LLM).
Теперь же в Cloudflare объявили, что отныне ИИ-скраперы будут блокироваться по умолчанию. Функция блокировки ИИ-ботов была впервые представлена еще в сентябре 2024 года. По данным компании, за прошедшее время более миллиона клиентов предпочли заблокировать ИИ-краулеров на своих сайтах.
В Cloudflare пишут, что это свидетельствует о том, что люди определенно хотят иметь больше контроля над своим контентом. Поэтому для всех доменов новых клиентов (включая бесплатные тарифные планы), которые воспользуются услугами Cloudflare, будет по умолчанию включена блокировка всех известных ИИ-краулеров.
Разработчики подчеркивают, что пользователи могут самостоятельно выбрать настройки, чтобы блокировка ИИ-ботов не влияла на краулеров поисковых систем. Это важный аспект для создателей контента, которые хотят, чтобы их сайты по-прежнему были доступны для поиска, но не были закрыты для ИИ-скраперов.
«ИИ-краулеры собирают такой контент, как тексты, статьи и изображения, чтобы генерировать ответы, не отправляя пользователей к первоисточнику. Тем самым они лишают создателей контента доходов и удовлетворения от осознания того, что кто-то читает их материалы, — заявляют представители Cloudflare. — Если исчезнет стимул для создания оригинального, качественного контента, общество окажется в проигрыше, а будущее интернета — под угрозой».