DeepDive — обучаемая система, использующая технику machine learning и фидбек со стороны пользователя. Это позволяет анализировать массивы данных на уровне, недоступном другим программам аналогичного предназначения.

DeepDive отличается от традиционных систем несколькими характеристиками:

  • DeepDive учитывает, что данные часто бывают неточными и содержат неправильную информацию: ошибки/опечатки в именах и словах. Естественно, ведь люди часто делают ошибки. Такие неточности принимаются в расчёт. DeepDive вычисляет откалиброванные вероятности для каждого своего утверждения. Например, констатирует какой-то факт с вероятностью 0,9.
  • DeepDive обрабатывает большое количество данных из разных источников. Приложения на базе DeepDive извлекают информацию из миллионов документов, веб-страниц, PDF-файлов, таблиц и изображений.
  • DeepDive допускает дополнительную настройку для более качественного анализа информации в определённой области знаний. Для этого предназначена система простых правил. Вдобавок, принимается в расчёт пользовательский фидбек, то есть уточнения предсказаний.
  • DeepDive обладает способностью к удалённому инспектированию данных, так что вместо тренировки и самообучения он готов использовать для образца уже существующие базы данных со связями между объектами, такие как Freebase.
  • Секрет DeepDive — масштабируемый высокопроизводительный движок для логики и обучения. Последние несколько лет разработчики трудились над повышением производительности встроенных алгоритмов. Эти технологии используются в некоторых свободных и коммерческих продуктах, в том числе MADlib, Impala, Hogwild! и Microsoft Adam.

DeepDive может обрабатывать структурированную и неструктурированную информацию, так что сфера использования этой системы довольно велика. Например, на её базе созданы приложения PaleoDeepDive (база знаний для палеобиологов), GeoDeepDive (извлечение скрытых данных из журнальных статей по геологии), Wisci (обогащение Википедии структурированной информацией).



10 комментариев

  1. 13.12.2014 at 15:21

  2. 13.12.2014 at 15:39

    И что дальше? Это опенсорс? Где скачать? Какого типа анализ она проводит и в каком виде выдаёт результат? Хватит уже рекламу выкладывать, да ещё такую бездарную.
    И почему ссылки на программы ведут на ютуб? Он что, теперь функцию sourceforge выполняет?

    • 13.12.2014 at 17:30

      стопицот раз с тобой согласен!

      • 13.12.2014 at 19:03

        Чем то похоже на «магазин на диване». Наш супермегафулькулято удаляет пятна, нарежет овощи, обработает всю вашу корреспонденцию и удовлетворит вас. Где конкретные _технические_ детали? как обрабатывает? с какими массивами данных работает? где ищет? как собирает-анализирует и объединяет?

    • 14.12.2014 at 12:42

      Ссылка есть в статье.

  3. 13.12.2014 at 18:19

    Тикет #8746573: уволить главного редактора

  4. 14.12.2014 at 23:39

    Не менее интересное — как распарсить миллионы веб-страниц, документов и PDF-файлов так, чтобы получить структурированную информацию?

    В DeepDive объекты сохряняются в MySQL, как понял. Инструмент развесовку делает, связи просчитывает, нечёткая логика, Байесовы сети — занимается анализом. Базы для анализа текстов на естественном языке, пока не увидел в проекте.

Оставить мнение