DeepDive: программа для глубокого анализа данных

DeepDive — обучаемая система, использующая технику machine learning и фидбек со стороны пользователя. Это позволяет анализировать массивы данных на уровне, недоступном другим программам аналогичного предназначения.

DeepDive отличается от традиционных систем несколькими характеристиками:

  • DeepDive учитывает, что данные часто бывают неточными и содержат неправильную информацию: ошибки/опечатки в именах и словах. Естественно, ведь люди часто делают ошибки. Такие неточности принимаются в расчёт. DeepDive вычисляет откалиброванные вероятности для каждого своего утверждения. Например, констатирует какой-то факт с вероятностью 0,9.
  • DeepDive обрабатывает большое количество данных из разных источников. Приложения на базе DeepDive извлекают информацию из миллионов документов, веб-страниц, PDF-файлов, таблиц и изображений.
  • DeepDive допускает дополнительную настройку для более качественного анализа информации в определённой области знаний. Для этого предназначена система простых правил. Вдобавок, принимается в расчёт пользовательский фидбек, то есть уточнения предсказаний.
  • DeepDive обладает способностью к удалённому инспектированию данных, так что вместо тренировки и самообучения он готов использовать для образца уже существующие базы данных со связями между объектами, такие как Freebase.
  • Секрет DeepDive — масштабируемый высокопроизводительный движок для логики и обучения. Последние несколько лет разработчики трудились над повышением производительности встроенных алгоритмов. Эти технологии используются в некоторых свободных и коммерческих продуктах, в том числе MADlib, Impala, Hogwild! и Microsoft Adam.

DeepDive может обрабатывать структурированную и неструктурированную информацию, так что сфера использования этой системы довольно велика. Например, на её базе созданы приложения PaleoDeepDive (база знаний для палеобиологов), GeoDeepDive (извлечение скрытых данных из журнальных статей по геологии), Wisci (обогащение Википедии структурированной информацией).

Анатолий Ализар: Бывший автор новостной ленты «Хакера». Увлекается современными технологиями, оружием, информационной безопасностью, носимой электроникой и в целом концепцией Internet of Things.

Комментарии (10)

  • И что дальше? Это опенсорс? Где скачать? Какого типа анализ она проводит и в каком виде выдаёт результат? Хватит уже рекламу выкладывать, да ещё такую бездарную.
    И почему ссылки на программы ведут на ютуб? Он что, теперь функцию sourceforge выполняет?

      • Чем то похоже на "магазин на диване". Наш супермегафулькулято удаляет пятна, нарежет овощи, обработает всю вашу корреспонденцию и удовлетворит вас. Где конкретные _технические_ детали? как обрабатывает? с какими массивами данных работает? где ищет? как собирает-анализирует и объединяет?

  • Тикет #8746573: уволить главного редактора

  • Не менее интересное - как распарсить миллионы веб-страниц, документов и PDF-файлов так, чтобы получить структурированную информацию?

    В DeepDive объекты сохряняются в MySQL, как понял. Инструмент развесовку делает, связи просчитывает, нечёткая логика, Байесовы сети - занимается анализом. Базы для анализа текстов на естественном языке, пока не увидел в проекте.

    • А вот откуда бы взяться базам анализа текстов на естественном языке, если его там нету? :)

    • Неа, не MySQL
      DeepDive uses PostgreSQL, Scala, and Python (version 2.X).

Похожие материалы