У многих активных пользователей электронной почты уже скопились гигабайты корреспонденции в папке «Архив». Письма за много лет и даже десятилетий. Это очень ценный массив данных, но на практике трудно извлечь оттуда что-нибудь полезное. Здесь речь идёт об анализе больших массивов неструктурированной информации, то есть полноценных приложениях области Data Mining.
Например, полгода назад известный программист Стивен Вольфрам — разработчик программного пакета Mathematica и научной поисковой системы Wolfram Alpha — выложил результаты анализа электронной почты, которая скопилась у него с 1989 года, в общей сложности около 300 тыс. отправленных электронных писем. На графике показана частотность отправлений, в зависимости от времени суток. Диаграмма показывает, как менялся распорядок дня учёного за 22 года.
Любой желающий может провести похожий статистический анализ своего почтового ящика с помощью инструментов для анализа данных на поисковом сайте Wolfram Alpha.
Дата-майнинг личных архивов — весьма перспективная ниша для бизнеса. Например, канадский стартап Morse на днях открыл бесплатный сервис анализа личного архива Gmail. Сервис позволяет в два щелчка мыши составить список телефонных номеров и имён, хотя бы раз упомянутых в ваших электронных письмах. Очень удобная штука: деловые люди обычно оставляют свой номер телефона в подписи к письму, так что если вам нужно кому-то срочно позвонить — обычно номер человека можно найти в своём же почтовом ящике. Morse автоматизирует этот процесс. Правда, индексирование почтового ящика Gmail может занять несколько часов: это ведь гигабайты данных.
Сервис Morse удобно использовать для того, чтобы импортировать контакт-лист с телефонными номерами из почтового ящика к себе на мобильный телефон, это тоже делается довольно просто. Более того, можно установить мобильное приложение Morse на смартфон, так что новые контакты из почтового ящика будут автоматически добавляться в адресную книгу телефона.