Разработчики независимых поисковых систем и других проектов в области дата-майнинга теперь не нужно писать собственные краулеры для обхода всех сайтов в интернете. Всю работу уже сделали за них создатели базы Common Crawl. Вчера они объявили, что стало доступно обновление за 2013 год. Свежая база содержит приблизительно 2 миллиарда веб-страниц объемом 102 терабайта (в несжатом виде).

Разработчики внесли некоторые изменения в формат базы. В частности, они отказались от файлов ARC в пользу WARC, что позволяет сохранять с документами информацию о HTTP-запросах, метаданные, текстовые фрагменты с привязкой специфическим запросам, в ответ на которые они были сгенерированы. Существует много свободных инструментов для работы с файлами WARC.

Формат метаданных сменился с JSON на WAT, поскольку JSON не обеспечивал достаточной функциональности для апгрейда на WARC.

В конце концов, формат текстовых файлов тоже поменялся: вместо файлов Hadoop теперь используются файлы WET (WARC Encapsulated Text), это тоже связано с миграцией на новый формат базы.

Больше информации о формате WARC можно получить здесь.

Структура директорий в базе теперь выглядит следующим образом.

  • CRAWL-NAME-YYYY-MM – название и дата (год, неделя)

    • segments

      • SEGMENTNAME – директория для сегмента и метка времени

        • warc – содержит WARC-файлы с HTTP-запросами и ответами

          • CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.gz – отдельные WAT-файлы
        • wat – содержит WARC-кодированные файлы WAT, которые описывают метаданные каждого запроса/ответа.

          • CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wat.gz – отдельные WAT-файлы
        • wet – содержит WARC-кодированные файлы WET с текстовыми фрагментами от HTTP-запросов

          • CRAWL-NAME-YYYMMMDDSS-SEQ-MACHINE.warc.wet.gz – отдельные файлы WAT

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    0 комментариев
    Межтекстовые Отзывы
    Посмотреть все комментарии