Специалисты из Microsoft Research и Техниона – Израильского технологического института (Хайфа) опубликовали научную работу с описанием методов дата-майнинга большого архива новостных текстов. Анализ позволяет выявить определенные шаблоны, которые указывают на увеличение вероятности конкретных событий — эпидемий, смертей и революций. Авторы научной работы полагают, что путем автоматического анализа текущих новостей можно заранее прогнозировать наступление таких событий.
В рамках научной работы был проведен дата-майнинг статей газеты New York Times с 1986 по 2008 год, то есть за 22 года. Вдобавок, в модель включили информацию из других открытых источников, таких как Wikipedia, FreeBase, OpenCyc и GeoNames. Ученым удалось разработать самообучаемую нейросеть, которая выявляет определенную последовательность событий, предшествующих определенному исходу.
Авторы говорят, что их метод можно использовать для предсказания и предотвращения нежелательных событий в будущем. Для этого достаточно нарушить вышеупомянутую цепочку, которая предшествует исходу. И наоборот, чтобы нечто произошло в будущем, нужно создать соответствующую цепочку событий.
Описанные в научной работе модели демонстрируют точность прогнозов от 70% до 90%, с вероятностью предотвращения от 30% до 60%.
На иллюстрации показано, что вспышке холеры в Анголе в январе 2007 года предшествовала засуха в январе 2006 года и ураган в январе 2007 года. Нейросеть определила, что вспышка холеры связана именно с этими событиями. Независимо от программы, к таким же выводам пришли эпидемиологи.
Ученые предлагают тренировать нейросеть и дальше, увеличивая количество информации для нее. С этой целью нужно осуществлять раздельный дата-майнинг по регионам, что позволит улучшить модели и увеличить точность прогнозов.