Раньше Google понижал в выдаче веб-страницы с маленьким количеством входящих ссылок. Скоро он научится «наказывать» страницы с текстом, который содержит недостоверные факты. Это следует из научной работы “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” от сотрудников Google.
Им удалось разработать систему, которая автоматически извлекает факты с веб-страниц, отличает ошибки парсинга от фактологических ошибок в тексте, а затем вычисляет уровень достоверности текста (оценка KBT, Knowledge-Based Trust). Эта оценка иногда является более объективным показателем, чем рейтинг PageRank (по крайней мере, рейтинг KBT способен уточнить значение PageRank). Например, у сайтов с «жёлтыми» новостями часто больший рейтинг PageRank, потому что на них много входящих ссылок из-за вирусности контента. Но в то же время их нельзя считать надёжным источником информации.
Для извлечения фактов использовались наработки проекта Knowledge Vault (KV), который применяет 16 различных методов извлечения триад данных (субъект, утверждение, объект) с веб-страниц. Субъект и утверждение принадлежат к множеству из краудсорсинговой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой.
Триада считалась «правдивой», если она в полном составе присутствует в базе Freebase. Если же там есть субъект и утверждение, а значение объекта иное, то факт считался ложным. Если пара из субъекта и утверждения отсутствует в базе, то такую триаду исключали из выборки.
Ошибки парсинга отличали по нескольким признакам: 1) субъект = объект; 2) субъект или объект не соответствует требованиям; 3) объект находится за пределами диапазона значений (например, вес спортсмена более 500 кг).
Исследователям удалось значительно улучшить результат работы Knowledge Vault. Кроме вышеупомянутого разграничения ошибок парсинга и фактических ошибок, они также сделали более сложную модель, которая умеет учитывать рейтинг нескольких страниц с одного веб-сайта, а не каждой страницы по отдельности. Дело в том, что по отдельности качественно вычислять рейтинг не всегда получается: так, для более миллиарда веб-страниц KV сумела извлечь только по одной триаде данных, а с некоторых страниц — десятки тысяч триад.
Технологию проверили на выборке в 119 млн веб-страниц и 5,6 млн веб-сайтов, которые сравнили с базой 2,9 млрд фактов, собранных из интернета. Такое масштабное тестирование подобных систем тоже проведено впервые. Ручная проверка показала, что автоматическое KBT-рейтингование работает хорошо.
Интересно, что PageRank и KBT зачастую являются ортогональными сигналами. Так, высокий PR и низкий KBT характерен для «жёлтых» СМИ из этого списка и веб-форумов.
Результаты работы предложено использовать для улучшения объективности PageRank, но они могут найти применение и в некоторых других задачах по дата-майнингу.
05.03.2015 в 19:19
Скоро гугл научится думать и все бросятся покупать новые гугл-бреинс гаджеты и мозги станут попросту ненужны.
05.03.2015 в 19:20
Удар по яйцам ну*о СЕО-шникам.
06.03.2015 в 09:12
Доздравствует WEB 3.0!
06.03.2015 в 11:40
А не достаточно ли будет после такого апгрейда PageRank добавить на страницу пару десятков предложений типа «Земля вращается вокруг Солнца» для попадания в TOP-10 поисковика Google?
06.03.2015 в 13:41
Нууу там тоже не критины алгоритмы разрабатывают, думаю есть защита от дурака, проверка должна проходить ряд анализов и сопоставлений.
07.03.2015 в 01:01
ага. но каждая такая проверка — дополнительная нагрузка на поисковик и оправдает ли она себя?
07.03.2015 в 15:05
ну как сказали там не дураки сидят.
10.03.2015 в 11:47
Если «жёлтый» источник добавит у себя к новости «Дима Пупкин изобрёл вечный двигатель» миллион предложений «Земля вращается вокруг Солнца», то по запросу «Земля вращается вокруг Солнца» — таки да, «жёлтый» источник должен иметь высокий KBT (и PageRank). А по запросу «вечный двигатель» — низкий KBT и PageRank. Там используют триада данных: объект изучения+утверждение=возвращаемое значение, поэтому «вечный двигатель»+»Земля вращается»=»ерунда», а «вечный двигатель»+»изобрёл»=»ложь». Т.е. к true/false добавляем null (null в данном случае — irrelevant information)
10.03.2015 в 12:39
> Эта оценка иногда является более объективным показателем, что рейтинг PageRank
Надо бы исправить