Cloudflare запустила бесконечный лабиринт для ИИ-ботов

Рекомендуем почитать:

Хакер #323. Беспроводной самопал

На прошлой неделе компания Cloudflare анонсировала новую функцию под названием «ИИ лабиринт» (AI Labyrinth), которая направлена на борьбу с несанкционированным сбором данных и предоставление ботам фальшивого ИИ-контента. Инструмент призван помешать ИИ-компаниям, краулеры которых без разрешения посещают сайты и собирают данные для обучения больших языковых моделей (LLM).

По данным Cloudflare, ИИ-краулеры ежедневно генерируют более 50 млрд запросов к сети компании, что составляет около 1% всего обрабатываемого трафика. Многие из таких краулеров собирают данные о сайтах для обучения LLM без разрешения владельцев ресурсов, что уже стало причиной многочисленных судебных исков со стороны создателей контента и издателей.

Вместо простой блокировки ботов новая разработка Cloudflare заманивает их в специальный «лабиринт», состоящий из правдоподобных, но нерелевантных страниц, что приводит к трате краулером вычислительных ресурсов и времени. В компании объясняют, что обычная блокировка ИИ-ботов порой приводит к обратному результату, поскольку это лишь предупреждает операторов краулеров о том, что они обнаружены.

«Когда мы обнаруживаем несанкционированных краулеров, вместо блокировки запроса мы даем им ссылку на серию сгенерированных ИИ страниц, которые достаточно убедительны, чтобы заставить краулера пройти по ним, — объясняют специалисты Cloudflare. — Несмотря на то, что такой контент выглядит правдоподобным, на самом деле он не связан с содержимым сайта, который мы защищаем, поэтому краулер впустую тратит время и ресурсы».

Компания подчеркивает, что предоставляемый ботам контент намеренно не имеет никакого отношения к исходным сайтам, но при этом он тщательно проработан или создан с использованием реальных научных фактов (например, общей информации из области биологии, физики или математики), чтобы избежать распространения дезинформации. Cloudflare подготавливает такой контент с помощью собственного сервиса Workers AI.

При этом страницы-ловушки и ссылки остаются невидимыми для обычных посетителей и недоступны им, чтобы люди не наткнулись на них случайно. Фальшивые ссылки содержат соответствующие мета-директивы, чтобы предотвратить индексацию поисковыми системами, но при этом остаются доступны для ботов-краулеров.

По сути, «ИИ лабиринт» представляет собой ханипот нового поколения, ведь современные краулеры давно научились обнаруживать традиционные ловушки и ссылки, которые не видят люди, но могут обнаружить боты, парсящие HTML-код.

«Ни один живой человек не станет углубляться на четыре ссылки в лабиринт сгенерированной искусственным интеллектом чепухи, — пишут разработчики Cloudflare. — Любой посетитель, который это сделает, с большой вероятностью окажется ботом, так что это дает нам совершенно новый инструмент для выявления и фингерпринтинга плохих ботов».

Отметим, что инженеры Cloudflare — не первые, кто придумал создавать лабиринты и хитроумные ловушки для ИИ-краулеров. В начале текущего года мы рассказывали о нескольких похожих проектах, авторы которых задались целью создать ИИ-компаниям как можно больше сложностей и защитить свои ресурсы и данные от агрессивных краулеров.

К примеру, автор проекта Nepenthes описывает свое детище как агрессивное и умышленно вредоносное ПО, предупреждая, что владельцам сайтов не стоит использовать его, если им не нравится ловить ИИ-краулеров и отправлять их в «бесконечный лабиринт» из статичных файлов без ссылок на выход, где они могут «застрять и бродить» месяцами.

В отличие от создателя Nepenthes, Cloudflare позиционирует «ИИ лабиринт» как законную защитную функцию, которой может воспользоваться любой клиент.

Сообщается, что в будущем планируется доработать AI Labyrinth таким образом, чтобы фальшивый контент стало сложнее обнаруживать, а поддельные страницы более органично вписывались в структуру сайтов.

Хакер #323. Беспроводной самопал

Подпишись на наc в Telegram!