Администрация социального обеспечения США (Social Security Administration) выдает каждому гражданину номер социального страхования и ведет базу данных не только живых, но и мертвых граждан с 1936 года. Банки и страховые компаний получают доступ к базе, если пройдут специальную сертификацию и оплатят подписку стоимостью $1825. Казалось бы, что может пойти не так?
Пол Форд (Paul Ford), редактор издания New Republic, увлекается дата-майнингом и всё время играется с различными базами данных. Недавно у него опять «зачесались руки» и он бросил клич в твиттере, у кого есть интересные массивы данных для анализа. Один из читателей прислал ссылку на файл. В текстовом файле под названием "Social Security Death Master File" оказалась информация о 85 миллионах умерших американцах.
Таким образом, секретная база попала в открытый доступ.
Недолго думая, Пол Форд обработал текстовый файл, чтобы информация была представлена в структурированном виде, — и сделал веб-приложение "Database of the dead".
Это очень интересное приложение. Любой желающий может проверить, сколько человек с его фамилией умерло. Сколько лет в среднем живут люди с его именем. Какие самые популярные имена и фамилии среди мертвых.
Если найти исходный файл, то доступен более глубокий анализ. Например, как много людей, родившихся с вами в один день, уже мертвы. Там указаны даты рождения и смерти, а также номера социального страхования.
База данных мертвых американцев
WWW
По состоянию на 31 мая 2013 года.
Часть 1: http://cancelthesefunerals.com/20130531/ssdm1.zip
Кстати, достоверность информации вызывает некоторые сомнения. В марте 2015 года проверка Офиса генерального инспектора США показала, что в базе живых граждан Администрации социального обеспечения присутствует 6,5 миллиона человек старше 112 лет. И наоборот, в базе мертвых есть люди, которые еще живы.
Фото: Paul Ross