Еще 102 терабайта документов добавлено в свободную базу Common Crawl

Рекомендуем почитать:

Xakep #299. Sysmon

Разработчики независимых поисковых систем и других проектов в области дата-майнинга теперь не нужно писать собственные краулеры для обхода всех сайтов в интернете. Всю работу уже сделали за них создатели базы Common Crawl. Вчера они объявили, что стало доступно обновление за 2013 год. Свежая база содержит приблизительно 2 миллиарда веб-страниц объемом 102 терабайта (в несжатом виде).

Разработчики внесли некоторые изменения в формат базы. В частности, они отказались от файлов ARC в пользу WARC, что позволяет сохранять с документами информацию о HTTP-запросах, метаданные, текстовые фрагменты с привязкой специфическим запросам, в ответ на которые они были сгенерированы. Существует много свободных инструментов для работы с файлами WARC.

Формат метаданных сменился с JSON на WAT, поскольку JSON не обеспечивал достаточной функциональности для апгрейда на WARC.

В конце концов, формат текстовых файлов тоже поменялся: вместо файлов Hadoop теперь используются файлы WET (WARC Encapsulated Text), это тоже связано с миграцией на новый формат базы.

Больше информации о формате WARC можно получить здесь.

Структура директорий в базе теперь выглядит следующим образом.

CRAWL-NAME-YYYY-MM – название и дата (год, неделя)
- segments
  - SEGMENTNAME – директория для сегмента и метка времени
    - warc – содержит WARC-файлы с HTTP-запросами и ответами
      - CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.gz – отдельные WAT-файлы
    - wat – содержит WARC-кодированные файлы WAT, которые описывают метаданные каждого запроса/ответа.
      - CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wat.gz – отдельные WAT-файлы
    - wet – содержит WARC-кодированные файлы WET с текстовыми фрагментами от HTTP-запросов
      - CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wet.gz – отдельные файлы WAT

Еще 102 терабайта документов добавлено в свободную базу Common Crawl

Xakep #299. Sysmon

Подпишись на наc в Telegram!

Из рубрики «Взлом»

Как работает EDR. Подробно разбираем механизмы антивирусной защиты

WinAPI днем и ночью. Ищем способы обращения к нативному коду из C#

Обзор перспективных исследований. Колонка Дениса Макрушина

HTB Hospital. Получаем доступ к хосту через уязвимость Ghostscript

Трюки

Липовый соникс. Реверсим картридж Liposonix и пишем его эмулятор

Новая диета для Linux. Загружаем современный Linux, используя минимум памяти

Фишинг в соцсетях. Как социальные сети помогают хакерам

Сделай мне красиво! Изобретаем персональный нейросетевой фотоувеличитель

Последние новости

Банкер SoumniBot уклоняется от обнаружения с помощью обфускации манифеста Android

Эксперты нашли сеть вредоносных сайтов с картинками для кражи Telegram-аккаунтов

Фальшивые читы обманом вынуждают геймеров распространять малварь

Правоохранители закрыли фишинговую платформу LabHost

Исследователи нашли сайт, торгующий миллиардами сообщений из Discord