Разработчики независимых поисковых систем и других проектов в области дата-майнинга теперь не нужно писать собственные краулеры для обхода всех сайтов в интернете. Всю работу уже сделали за них создатели базы Common Crawl. Вчера они объявили, что стало доступно обновление за 2013 год. Свежая база содержит приблизительно 2 миллиарда веб-страниц объемом 102 терабайта (в несжатом виде).
Разработчики внесли некоторые изменения в формат базы. В частности, они отказались от файлов ARC в пользу WARC, что позволяет сохранять с документами информацию о HTTP-запросах, метаданные, текстовые фрагменты с привязкой специфическим запросам, в ответ на которые они были сгенерированы. Существует много свободных инструментов для работы с файлами WARC.
Формат метаданных сменился с JSON на WAT, поскольку JSON не обеспечивал достаточной функциональности для апгрейда на WARC.
В конце концов, формат текстовых файлов тоже поменялся: вместо файлов Hadoop теперь используются файлы WET (WARC Encapsulated Text), это тоже связано с миграцией на новый формат базы.
Больше информации о формате WARC можно получить здесь.
Структура директорий в базе теперь выглядит следующим образом.
-
CRAWL-NAME-YYYY-MM – название и дата (год, неделя)
-
segments
-
SEGMENTNAME – директория для сегмента и метка времени
-
warc – содержит WARC-файлы с HTTP-запросами и ответами
- CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.gz – отдельные WAT-файлы
-
wat – содержит WARC-кодированные файлы WAT, которые описывают метаданные каждого запроса/ответа.
- CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wat.gz – отдельные WAT-файлы
-
wet – содержит WARC-кодированные файлы WET с текстовыми фрагментами от HTTP-запросов
-
CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wet.gz – отдельные файлы WAT
-
-
-
-