Google научился проверять факты в текстах

Рекомендуем почитать:

Xakep #299. Sysmon

Раньше Google понижал в выдаче веб-страницы с маленьким количеством входящих ссылок. Скоро он научится «наказывать» страницы с текстом, который содержит недостоверные факты. Это следует из научной работы “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” от сотрудников Google.

Им удалось разработать систему, которая автоматически извлекает факты с веб-страниц, отличает ошибки парсинга от фактологических ошибок в тексте, а затем вычисляет уровень достоверности текста (оценка KBT, Knowledge-Based Trust). Эта оценка иногда является более объективным показателем, чем рейтинг PageRank (по крайней мере, рейтинг KBT способен уточнить значение PageRank). Например, у сайтов с «жёлтыми» новостями часто больший рейтинг PageRank, потому что на них много входящих ссылок из-за вирусности контента. Но в то же время их нельзя считать надёжным источником информации.

Для извлечения фактов использовались наработки проекта Knowledge Vault (KV), который применяет 16 различных методов извлечения триад данных (субъект, утверждение, объект) с веб-страниц. Субъект и утверждение принадлежат к множеству из краудсорсинговой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой.

Триада считалась «правдивой», если она в полном составе присутствует в базе Freebase. Если же там есть субъект и утверждение, а значение объекта иное, то факт считался ложным. Если пара из субъекта и утверждения отсутствует в базе, то такую триаду исключали из выборки.

Ошибки парсинга отличали по нескольким признакам: 1) субъект = объект; 2) субъект или объект не соответствует требованиям; 3) объект находится за пределами диапазона значений (например, вес спортсмена более 500 кг).

Исследователям удалось значительно улучшить результат работы Knowledge Vault. Кроме вышеупомянутого разграничения ошибок парсинга и фактических ошибок, они также сделали более сложную модель, которая умеет учитывать рейтинг нескольких страниц с одного веб-сайта, а не каждой страницы по отдельности. Дело в том, что по отдельности качественно вычислять рейтинг не всегда получается: так, для более миллиарда веб-страниц KV сумела извлечь только по одной триаде данных, а с некоторых страниц — десятки тысяч триад.

Технологию проверили на выборке в 119 млн веб-страниц и 5,6 млн веб-сайтов, которые сравнили с базой 2,9 млрд фактов, собранных из интернета. Такое масштабное тестирование подобных систем тоже проведено впервые. Ручная проверка показала, что автоматическое KBT-рейтингование работает хорошо.

Интересно, что PageRank и KBT зачастую являются ортогональными сигналами. Так, высокий PR и низкий KBT характерен для «жёлтых» СМИ из этого списка и веб-форумов.

Результаты работы предложено использовать для улучшения объективности PageRank, но они могут найти применение и в некоторых других задачах по дата-майнингу.

Google научился проверять факты в текстах

Xakep #299. Sysmon

Подпишись на наc в Telegram!

Из рубрики «Взлом»

Картинки в водопаде. Учимся рисовать изображения радиоволнами

Agent Tesla. Учимся реверсить боевую малварь в Ghidra

HTB Surveillance. Эксплуатируем инъекцию команд через скрипт ZoneMinder

Как работает EDR. Подробно разбираем механизмы антивирусной защиты

Трюки

Липовый соникс. Реверсим картридж Liposonix и пишем его эмулятор

Новая диета для Linux. Загружаем современный Linux, используя минимум памяти

Фишинг в соцсетях. Как социальные сети помогают хакерам

Сделай мне красиво! Изобретаем персональный нейросетевой фотоувеличитель

Последние новости

Умный телевизор Hisense случайно вывел из строя Windows-компьютер владельца

Количество атак на мобильные устройства в России возросло в 5,2 раза

Microsoft: ATP28 эксплуатировала баг в Windows Print Spooler несколько лет

Малварь GuptiMiner распространялась через обновления антивируса eScan

Открыта регистрация на соревнования Киберколизей