Интересная дискуссия развернулась вокруг базы данных, которую в июне 2014 года опубликовали власти Нью-Йорка. В соответствии с Законом о свободе информации, они выложили более 20 гигабайт файлов CSV с информацией обо всех (!) поездках на такси в 2013 году, с координатами места посадки и места высадки, временем, стоимостью поездки и т.д.

Поездки, 2013 год (11 ГБ)
Стоимость, 2013 год (7,7 ГБ)

Хотя информация анонимная, в базе не указаны имена пассажиров, но хакеры быстро выяснили, что можно опознать личность практически каждого пассажира по координатам! В самом деле, если к твоему дому подъехало такси на вызов, то кто сядет в машину?

Более того, по координатам можно определить, куда направился человек. Один пытливый исследователь из компании Neustar Research проследил маршруты разных знаменитостей, вроде Джессики Альбы (поездка Джессики на такси 7 сентября 2013 года). Он посмотрел, где они обедают, в каких ночных клубах развлекаются. Он даже выяснил, сколько они заплатили за каждую поездку. Оказалось, что звёздные личности редко дают чаевые.

Автор исследования говорит, что дата-майнинг позволяет, например, вычислить аудиторию стрипклубов! Так, на этой карте показаны координаты высадки посетителей стрипклуба Hustler Club во временные промежутки с 0 до 6 часов за все ночи 2013 года.

003

База данных содержит информацию о 173 миллионах поездок. Кроме координат, времени и стоимости поездки, указан уникальный идентификатор автомобиля и другие метаданные в таком формате:

6B111958A39B24140C973B262EA9FEA5,D3B035A03C8A34DA17488129DA581EE7,VTS,5,,2013-12-03 15:46:00,2013-12-03 16:47:00,1,3660,22.71,-73.813927,40.698135,-74.093307,40.829346

Это соответствует следующим значениям:

medallion,hack_license,vendor_id,rate_code,store_and_fwd_flag,pickup_datetime,dropoff_datetime,passenger_count,trip_time_in_secs

Первые две колонки указывают на попытку властей анонимизировать данные, скрыв номер автомобиля и номер лицензии. Но они крайне неграмотно сделали это, используя хэш-функцию MD5. Но поскольку диапазон номеров и лицензий ограничен, кто угодно может рассчитать хэш-функцию для всех номеров — и деанонимизировать базу.

9Y99,5296319,VTS,1,,2013-12-06 00:07:00,2013-12-06 00:16:00,5,540,1.85,-73.97953,40.776447,-73.982254,40.754925 
9Y99,5296319,VTS,1,,2013-12-06 00:20:00,2013-12-06 00:46:00,5,1560,6.58,-73.985779,40.757317,-73.984543,40.681244 
DIP1,111333,VTS,1,,2013-12-03 12:10:00,2013-12-03 12:24:00,5,840,.00,0,0,0,0 
SBV106,429925,VTS,1,,2013-12-05 23:04:00,2013-12-05 23:16:00,6,720,2.86,-73.988197,40.731232,-73.96199,40.764343

11 комментарий

  1. 10.11.2014 at 20:29

    Больше всего удивило, что власти ведут такую базу и что в ней даже чаевые можно посмотреть.

    • 11.11.2014 at 09:43

      вот именно! а у нас в крупных гос.институтах информатики и выч.техники расписание студентам вывешивают на инфо.доски на бумаге…нежели предоставлять это в электронном виде…

    • 11.11.2014 at 10:48

      Такое ощущение, что слив организован специально для того, чтобы протащить какую-нибудь непопулярную поправку.

    • 11.11.2014 at 11:27

      А еще больше удивляет то, что на маниакальное желание следить за вся и всеми жителями страны тратятся миллиарды денег с налогов тех же самых жителей страны… При этом даже дух захватывает, когда задумываешься о масштабах слежки.

      • 11.11.2014 at 13:14

        Эти деньги не сожжены на кострах, они ушли программистам, производителям железа и так далее. То есть достались работникам, жителям этой же страны. Которые потом ещё налог заплатили с этих денег. И какая разница, будет программист писать военную программу или меню для пиццерии за те же деньги? Различается только результат, так что сетовать на трату денег как-то странно, ведь они потрачены всё туда же. А по-твоему получается, что если я в магазине купил рубашку — это хорошо деньги вложил, а если в том же магазине купил два галстука — это спустил деньги в унитаз. Как так, если деньги и там и там достались магазину?

        • 11.11.2014 at 15:15

          С точки зрения экономики, разницы действительно нет. Но, помимо интересов экономики, есть ещё и интересы конкретных людей. Как бы Вы, к примеру, отнеслись к инициативе работодателя поставить у Вас на работе камеры в туалетах за счёт Вашей зарплаты?

          • 11.11.2014 at 20:04

            Я вообще отрицательно отношусь к идее тратить за меня мою зарплату. А если работодатель — извращенец и за свой счёт что-то поставит в туалете, что ж, пусть смотрит на мою письку, куда ж деваться, офис-то не мой.

  2. 11.11.2014 at 13:11

    Чаевые таксистам? Ну это уж перебор, они и так дерут по-бешеному, туда 10 чаевых уже заложено.

    • 11.11.2014 at 22:14

      Скорей всего под чаевыми подразумевается отказ клиента от сдачи. Например счетчик настучал 9.90, клиент подал десятку и вышел.

Оставить мнение