Еще 102 терабайта документов добавлено в свободную базу Common Crawl

Рекомендуем почитать:

Хакер #325. Шпионские штучки

Разработчики независимых поисковых систем и других проектов в области дата-майнинга теперь не нужно писать собственные краулеры для обхода всех сайтов в интернете. Всю работу уже сделали за них создатели базы Common Crawl. Вчера они объявили, что стало доступно обновление за 2013 год. Свежая база содержит приблизительно 2 миллиарда веб-страниц объемом 102 терабайта (в несжатом виде).

Разработчики внесли некоторые изменения в формат базы. В частности, они отказались от файлов ARC в пользу WARC, что позволяет сохранять с документами информацию о HTTP-запросах, метаданные, текстовые фрагменты с привязкой специфическим запросам, в ответ на которые они были сгенерированы. Существует много свободных инструментов для работы с файлами WARC.

Формат метаданных сменился с JSON на WAT, поскольку JSON не обеспечивал достаточной функциональности для апгрейда на WARC.

В конце концов, формат текстовых файлов тоже поменялся: вместо файлов Hadoop теперь используются файлы WET (WARC Encapsulated Text), это тоже связано с миграцией на новый формат базы.

Больше информации о формате WARC можно получить здесь.

Структура директорий в базе теперь выглядит следующим образом.

CRAWL-NAME-YYYY-MM – название и дата (год, неделя)
- segments
  - SEGMENTNAME – директория для сегмента и метка времени
    - warc – содержит WARC-файлы с HTTP-запросами и ответами
      - CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.gz – отдельные WAT-файлы
    - wat – содержит WARC-кодированные файлы WAT, которые описывают метаданные каждого запроса/ответа.
      - CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wat.gz – отдельные WAT-файлы
    - wet – содержит WARC-кодированные файлы WET с текстовыми фрагментами от HTTP-запросов
      - CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wet.gz – отдельные файлы WAT

Хакер #325. Шпионские штучки

Подпишись на наc в Telegram!