Энтузиасты создают ловушки для ИИ-краулеров

Рекомендуем почитать:

Хакер #324. Всякое с моделями

ИИ-компании нередко обвиняют в том, что они игнорируют инструкции в файлах robots.txt и скрапят любой контент без разбора, при этом создавая большую нагрузку на сайты. Для борьбы с этим явлением начали появляться ловушки для ИИ-краулеров.

Ранее на ИИ-краулеры жаловался даже глава Reddit Стив Хаффман (Steve Huffman), который называл их «занозой в заднице», так как их крайне сложно блокировать. Краулер Anthropic был пойман на том, что заходил на сайт iFixit миллион раз в день. А ИБ-исследователи отмечали, что краулер OpenAI ChatGPT вообще мог бы использоваться для DDoS-атак.

Nepenthes

Недавно анонимный разработчик, скрывающийся под псевдонимом Aaron B (далее просто Аарон), решил попытаться создать способ борьбы с этой проблемой, после того как краулер Facebook* посетил его собственный сайт более 30 млн раз.

Аарон решил «вооружить» robots.txt и придумал проект Nepenthes, вдохновившись известной тактикой борьбы со спамом, которую называют «тарпитинг» (tarpitting; в переводе с английского tar pit означает «смоляная яма»). Кстати, название Nepenthes проект получил в честь одноименного плотоядного растения Непентес, которое съедает практически все, что попадет внутрь.

На сайте проекта разработчик подчеркивает, что Nepenthes — это агрессивное и умышленно вредоносное ПО. По его словам, владельцам сайтов не стоит использовать его, если им не нравится ловить ИИ-краулеры и отправлять их в «бесконечный лабиринт» из статичных файлов без ссылок на выход, где они могут «застрять и бродить» месяцами.

«Допустим, у вас есть “лошадиные силы” и пропускная способность, и вы просто хотите увидеть, как эти ИИ-модели горят. У Nepenthes есть то, что вам нужно... Пусть они всасывают столько дерьма, на сколько хватит места на диске, и захлебываются им», — гласит описание на сайте Nepenthes.

Более того, попав в такую ловушку, краулеры могут получать намеренно бессмысленные данные (Markov-babble), специально предназначенные для отравления ИИ-моделей. Специалист полагает, что это может стать неплохим бонусом для многих владельцев сайтов.

Аарон заявляет, что Nepenthes может успешно заманить в ловушку все основные краулеры, за исключением краулера OpenAI.

Люди могут увидеть демонстрацию работы Nepenthes на специальной странице.

«Это похоже на бесконечный лабиринт, в котором сидит минотавр. Только в данном случае минотавр — это краулер, который не может выбраться. Типичный веб-краулер не отличается особой логикой. Он загружает URL-адрес, и если видит ссылки на другие страницы, то загружает и их тоже. Nepenthes генерирует случайные ссылки, которые всегда указывают обратно на него же, а краулер загружает эти новые ссылки. Nepenthes с радостью возвращает все новые и новые списки ссылок, указывающих на себя», — недавно объяснял Аарон журналистам издания 404 Media.

Как отмечает издание ArsTechnica, тоже пообщавшееся с разработчиком Nepenthes, его цель — не дать ИИ-индустрии окончательно испортить интернет технологиями, о которых никто не просил. С Nepenthes он надеется причинить как можно больше вреда, вероятно, увеличив расходы компаний на обучение ИИ и затянуть процесс обучения моделей.

Разработчик сетует, что «интернет превращается в паноптикум по извлечению денег», где «всем заправляют олигархи». И если у пользователей нет варианта бойкотировать или остановить происходящее, Аарон считает, что нужно «начать причинять реальную боль тем, кто сидит наверху, чтобы произошли какие-то изменения».

«В конце концов, похоже, что того интернета, на котором я вырос и который любил, уже давно нет, — заявил Аарон ArsTechnica. — Я сыт по горло, и знаете что? Давайте дадим отпор, даже если он не увенчается успехом. Станьте несъедобными. Отращивайте шипы».

Nepenthes был запущен в середине января 2025 года, но популярность и количество пользователей проекта уже превзошли все ожидания Аарона.

При этом трудно сказать, насколько широко распространен Nepenthes, ведь владельцам сайтов не рекомендуется отмечать, что на их сайте развернута ловушка. По словам Аарона, «большинство людей молчат об этом», но логи его веб-сервера показывают, что вредоносный инструмент начал использоваться очень активно.

Iocaine

Nepenthes начал вдохновлять других разработчиков на создание новых инструментов для противодействия ИИ. Так, разработчик Гергели Надь (Gergely Nagy), известный в сети под ником algernon, увидел Nepenthes и пришел в восторг, потому что на тот момент почти вся пропускная способность его сервера была «съедена» ИИ-краулерами.

Однако Надь не ограничился простым блокированием скраперов и пошел дальше, создав собственную ловушку, получившую имя Iocaine (название вымышленного яда из фильма «Принцесса-невеста»).

Он рассказал журналистам, что эта ловушка сразу ликвидировала около 94% бот-трафика на его сайте, который в основном исходил от ИИ-краулеров.

Так как в социальных сетях развернулось довольно широкое обсуждение проекта, вскоре пользователи стали интересоваться у Надя внедрением Iocaine. Причем это были не только частные лица, но и организации, желающие защититься от скраппинга.

Идея Iocaine (но не его код) позаимствована у Nepenthes, но он больше ориентирован на отравление ИИ-моделей. Надь использовал обратный прокси, чтобы запереть краулеры в «бесконечном лабиринте мусора», стремясь медленно отравить собираемые ими данные.

Если Аарон сравнивал стоимость запуска Nepenthes с запуском дешевой виртуальной машины на Raspberry Pi, то Надь говорит, что использование Iocaine против краулеров стоит примерно столько же, сколько обслуживание его сайта.

«Давайте сделаем отравление ИИ нормой. Если мы все это сделаем, им будет нечего краулить», — пишет на своем сайте Надь.

Quixotic

Еще один энтузиаст, вдохновившийся примером Арона и Надя, — это независимый разработчик Маркус Батлер (Marcus Butler). Всего за несколько дней Батлер создал собственную «отравляющую» ИИ атаку под названием Quixotic. И вскоре он стал получать сообщения от других людей, которые уже разработали собственные версии его инструмента.

Батлер не относится к числу тех, кто хочет навредить ИИ-компаниям. Он объяснил журналистам, что решения вроде Quixotic и Nepenthes вряд ли «сожгут ИИ дотла». Вместо этого он занимает более взвешенную позицию, полагая, что «такие инструменты обеспечивают небольшую защиту (очень небольшую) от скраперов, которые берут контент, а затем репостят его или используют в целях обучения».

Журналисты отмечают, что уже существуют и другие инструменты, предназначенные для отравления ИИ и борьбы с краулерами, а в будущем их может стать еще больше.

При этом единственной ИИ-компанией, ответившей на просьбу ArsTechnica прокомментировать ситуацию, оказалась OpenAI. Ее представитель подтвердил, что компания уже работает над способом борьбы с тарпитингом.

«Нам известно о попытках нарушить работу веб-краулеров ИИ, — заявил представитель OpenAI. — Мы разрабатываем наши системы таким образом, чтобы они были устойчивыми, но при этом соблюдали robots.txt и стандартные веб-практики».

В заключение издание цитирует социотехнолога Юргена Гейтера (Jürgen Geuter), известного в сети под ником tante. Он полагает, что Nepenthes и другие подобные проекты, это «скорее социально-политическое заявление, чем технологическое решение», ведь проблема, которую они пытаются решить, «не является чисто технической, она социальная, политическая, юридическая и требует более серьезных рычагов».

«Возникает ощущение, что социальный контракт, заключенный между обществом и технологическим сектором (вы создаете полезные вещи, и мы не против того, чтобы вы богатели), был расторгнут в одностороннем порядке. И теперь эта сторона хочет, чтобы ее игрушка поглотила весь мир. Люди чувствуют эту угрозу и хотят, чтобы она прекратилась», — говорит Гейтер.

*Принадлежит компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.

Хакер #324. Всякое с моделями

Nepenthes

Iocaine

Quixotic

Подпишись на наc в Telegram!