Раньше Google понижал в выдаче веб-страницы с маленьким количеством входящих ссылок. Скоро он научится «наказывать» страницы с текстом, который содержит недостоверные факты. Это следует из научной работы “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” от сотрудников Google.

Им удалось разработать систему, которая автоматически извлекает факты с веб-страниц, отличает ошибки парсинга от фактологических ошибок в тексте, а затем вычисляет уровень достоверности текста (оценка KBT, Knowledge-Based Trust). Эта оценка иногда является более объективным показателем, чем рейтинг PageRank (по крайней мере, рейтинг KBT способен уточнить значение PageRank). Например, у сайтов с «жёлтыми» новостями часто больший рейтинг PageRank, потому что на них много входящих ссылок из-за вирусности контента. Но в то же время их нельзя считать надёжным источником информации.

Для извлечения фактов использовались наработки проекта Knowledge Vault (KV), который применяет 16 различных методов извлечения триад данных (субъект, утверждение, объект) с веб-страниц. Субъект и утверждение принадлежат к множеству из краудсорсинговой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой.

Триада считалась «правдивой», если она в полном составе присутствует в базе Freebase. Если же там есть субъект и утверждение, а значение объекта иное, то факт считался ложным. Если пара из субъекта и утверждения отсутствует в базе, то такую триаду исключали из выборки.

Ошибки парсинга отличали по нескольким признакам: 1) субъект = объект; 2) субъект или объект не соответствует требованиям; 3) объект находится за пределами диапазона значений (например, вес спортсмена более 500 кг).

Исследователям удалось значительно улучшить результат работы Knowledge Vault. Кроме вышеупомянутого разграничения ошибок парсинга и фактических ошибок, они также сделали более сложную модель, которая умеет учитывать рейтинг нескольких страниц с одного веб-сайта, а не каждой страницы по отдельности. Дело в том, что по отдельности качественно вычислять рейтинг не всегда получается: так, для более миллиарда веб-страниц KV сумела извлечь только по одной триаде данных, а с некоторых страниц — десятки тысяч триад.

Untitled-1

Технологию проверили на выборке в 119 млн веб-страниц и 5,6 млн веб-сайтов, которые сравнили с базой 2,9 млрд фактов, собранных из интернета. Такое масштабное тестирование подобных систем тоже проведено впервые. Ручная проверка показала, что автоматическое KBT-рейтингование работает хорошо.

Интересно, что PageRank и KBT зачастую являются ортогональными сигналами. Так, высокий PR и низкий KBT характерен для «жёлтых» СМИ из этого списка и веб-форумов.

Untitled-2

Результаты работы предложено использовать для улучшения объективности PageRank, но они могут найти применение и в некоторых других задачах по дата-майнингу.

9 комментариев

  1. Аватар

    05.03.2015 в 19:19

    Скоро гугл научится думать и все бросятся покупать новые гугл-бреинс гаджеты и мозги станут попросту ненужны.

  2. Аватар

    05.03.2015 в 19:20

    Удар по яйцам ну*о СЕО-шникам.

  3. Аватар

    06.03.2015 в 09:12

    Доздравствует WEB 3.0!

  4. Аватар

    06.03.2015 в 11:40

    А не достаточно ли будет после такого апгрейда PageRank добавить на страницу пару десятков предложений типа «Земля вращается вокруг Солнца» для попадания в TOP-10 поисковика Google?

    • Аватар

      06.03.2015 в 13:41

      Нууу там тоже не критины алгоритмы разрабатывают, думаю есть защита от дурака, проверка должна проходить ряд анализов и сопоставлений.

    • Аватар

      10.03.2015 в 11:47

      Если «жёлтый» источник добавит у себя к новости «Дима Пупкин изобрёл вечный двигатель» миллион предложений «Земля вращается вокруг Солнца», то по запросу «Земля вращается вокруг Солнца» — таки да, «жёлтый» источник должен иметь высокий KBT (и PageRank). А по запросу «вечный двигатель» — низкий KBT и PageRank. Там используют триада данных: объект изучения+утверждение=возвращаемое значение, поэтому «вечный двигатель»+»Земля вращается»=»ерунда», а «вечный двигатель»+»изобрёл»=»ложь». Т.е. к true/false добавляем null (null в данном случае — irrelevant information)

  5. Аватар

    10.03.2015 в 12:39

    > Эта оценка иногда является более объективным показателем, что рейтинг PageRank
    Надо бы исправить

Оставить мнение