DeepDive — обучаемая система, использующая технику machine learning и фидбек со стороны пользователя. Это позволяет анализировать массивы данных на уровне, недоступном другим программам аналогичного предназначения.
DeepDive отличается от традиционных систем несколькими характеристиками:
- DeepDive учитывает, что данные часто бывают неточными и содержат неправильную информацию: ошибки/опечатки в именах и словах. Естественно, ведь люди часто делают ошибки. Такие неточности принимаются в расчёт. DeepDive вычисляет откалиброванные вероятности для каждого своего утверждения. Например, констатирует какой-то факт с вероятностью 0,9.
- DeepDive обрабатывает большое количество данных из разных источников. Приложения на базе DeepDive извлекают информацию из миллионов документов, веб-страниц, PDF-файлов, таблиц и изображений.
- DeepDive допускает дополнительную настройку для более качественного анализа информации в определённой области знаний. Для этого предназначена система простых правил. Вдобавок, принимается в расчёт пользовательский фидбек, то есть уточнения предсказаний.
- DeepDive обладает способностью к удалённому инспектированию данных, так что вместо тренировки и самообучения он готов использовать для образца уже существующие базы данных со связями между объектами, такие как Freebase.
- Секрет DeepDive — масштабируемый высокопроизводительный движок для логики и обучения. Последние несколько лет разработчики трудились над повышением производительности встроенных алгоритмов. Эти технологии используются в некоторых свободных и коммерческих продуктах, в том числе MADlib, Impala, Hogwild! и Microsoft Adam.
DeepDive может обрабатывать структурированную и неструктурированную информацию, так что сфера использования этой системы довольно велика. Например, на её базе созданы приложения PaleoDeepDive (база знаний для палеобиологов), GeoDeepDive (извлечение скрытых данных из журнальных статей по геологии), Wisci (обогащение Википедии структурированной информацией).