Опенсорсный инструмент Anubis блокирует ИИ-скраперов

Рекомендуем почитать:

Хакер #314. Разведка по плану

В январе 2025 года Ксе Иасо (Xe Iaso) создала опенсорсный инструмент Anubis, предназначенный для борьбы с ИИ-скраперами. В настоящее время его уже скачали почти 200 000 раз, и Anubis применяется в таких организациях, как ЮНЕСКО, а также его используют разработчики GNOME и FFmpeg.

Иасо решила создать Anubis, когда обнаружила, что ее собственный Git-сервер страдает от ИИ-скраперов до такой степени, что перестает работать.

«Я не могла загрузить [страницу сервера] в браузере и подумала, что это странно, — рассказала Иасо изданию 404Media. — Я заглянула в логи, и оказалось, что за последние два дня он перезапускался около 500 раз. Тогда я проверила журналы доступа и увидела, что [бот] Amazon кликал буквально по каждой ссылке».

Иасо говорит, что подумывала об удалении Git-сервера из открытого доступа, но поскольку некоторые исходные коды хотелось оставить общедоступными, она решила попытаться остановить бота Amazon.

«Я пробовала разные вещи, о которых не могу рассказать под запись. Но ни один из этих способов не сработал. Поэтому у меня возникла плохая идея, — говорит Иасо. — Я написала немного кода, выложила его на GitHub как экспериментальный проект, и тут разработчики среды рабочего стола GNOME стали использовать его как средство последнего шанса. Тогда я поняла, что попала в точку».

Фактически в настоящее время существует несколько способов, с помощью которых люди и организации пытаются остановить ИИ-ботов. Дело в том, что ИИ-компании и их краулеры обычно игнорируют файл robots.txt и заданные в нем ограничения. По словам Иасо, CAPTCHA тоже работает недостаточно хорошо, потому что многие ИИ-скраперы имеют встроенные решатели CAPTCHA.

Так как привычные способы защиты от ботов фактически перестали работать, за дело взялись энтузиасты. Еще в начале текущего года мы рассказывали о нескольких проектах, авторы которых задались целью создать ИИ-компаниям как можно больше сложностей и защитить свои ресурсы и данные от агрессивных краулеров.

К примеру, автор проекта Nepenthes описывал свое детище как агрессивное и умышленно вредоносное ПО, предупреждая, что владельцам сайтов не стоит использовать его, если им не нравится ловить ИИ-краулеров и отправлять их в «бесконечный лабиринт» из статичных файлов без ссылок на выход, где они могут «застрять и блуждать» месяцами.

Вскоре после энтузиастов и компания Cloudflare анонсировала новую функцию под названием «ИИ-лабиринт» (AI Labyrinth), направленную на борьбу с несанкционированным сбором данных и предоставление ботам фальшивого ИИ-контента. Инструмент был призван помешать ИИ-компаниям, краулеры которых без разрешения посещают сайты и собирают данные для обучения больших языковых моделей (LLM).

А недавно Cloudflare сообщила, что будет блокировать все ИИ-скраперы по умолчанию даже для пользователей бесплатных тарифных планов.

Иасо, которая имеет дело с генеративным ИИ на работе, объясняет, что в целом «отравление наборов данных не работает».

«Это позволяет вам почувствовать себя лучше, но в итоге вы тратите больше вычислений, чем экономите. Я не знаю, как выразиться более вежливо, но если вы помочитесь в океан, океан не превратится в мочу», — говорит создательница Anubis.

Другими словами, Иасо считает, что во многих случаях нецелесообразно пускать ИИ-ботов по ложному следу и заставлять их гоняться за миражами в лабиринтах. Это не имеет смысла, так как на это нужны ресурсы, которых может быть достаточно у Cloudflare, но которых нет у небольших проектов и частных лиц.

«Anubis — это некапча, — рассказывает Иасо на своем сайте. — Он использует возможности вашего браузера, чтобы автоматизировать большую ту работу, которую выполняет CAPTCHA. В настоящее время основная реализация строится на запуске набора криптографических вычислений на JavaScript, чтобы доказать, что вы можете выполнять JavaScript таким образом, чтобы это мог проверить сервер».

По сути, Anubis проверяет, что посетитель сайта — это человек, использующий браузер. Один из способов сделать это — заставить браузер выполнять криптографические вычисления с помощью JavaScript или использовать другие скрытые проверки. Браузеры могут выполнять их по умолчанию, а боты должны быть явно запрограммированы для этого.

Такая проверка невидима для пользователя, и большинство браузеров способны без труда пройти такой тест. Конечно, в теории скраперы могут притворяться пользователями с браузерами, но дополнительные вычислительные затраты на это в масштабах всего интернета будут огромны.

Таким образом, Anubis требует таких вычислительных затрат, которые являются непомерно дорогими для ИИ-скраперов, просматривающих миллионы сайтов, но незначительными для отдельного человека, который просто пользуется интернетом.

Anubis — это бесплатный инструмент с открытым исходным кодом, который можно развернуть у себя и встроить практически куда угодно. При этом Иасо продолжает активно работать над улучшениями и добавлением новых функций. Она рассказала изданию, что сейчас разрабатывает вариант проверки без криптографии, чтобы меньше нагружать процессоры пользователей, а также работает над версией, которая вообще не будет требовать JavaScript (ведь некоторые пользователи, заботящиеся о приватности, его отключают).

«Нужен баланс, чтобы понять, как блокировать ботов, но не блокировать людей и не создавать слишком много ложных срабатываний. Также нужно, чтобы люди, управляющие ботами, не могли понять, по какому шаблону их ловят. А вот обычные люди, попавшие в этот фильтр, должны иметь возможность понять, в чем дело, чтобы они могли связаться с организацией и получить помощь. Ну, то есть типичная, невозможная задача», — шутит Иасо.

Создательница Anubis полагает, что ИИ-компании внимательно наблюдают за ее проектом. Но если они действительно хотят ее остановить, Иасо советует просто ее отвлечь.

«Если вы работаете в ИИ-компании, вот как вы можете максимально эффективно саботировать разработку Anubis, — пишет она на своем сайте. — Во-первых, уволитесь. Во-вторых, устройтесь в Square Enix. В-третьих, начните делать крышесносный контент для Final Fantasy XIV. Вот что сработает лучше всего».

Хакер #314. Разведка по плану

Подпишись на наc в Telegram!