Как открытые данные превращаются в персональные: пример нью-йоркских такси

131

В июне 2014 года власти Нью-Йорка опубликовали 20 гигабайт файлов CSV с информацией обо всех поездках на такси в 2013 году, с координатами места посадки и места высадки, временем, стоимостью поездки и т.д. Это было сделано в соответствии с законом о свободе информации, пишет издание «Хакер».

Хотя информация анонимная, в базе не указаны имена пассажиров, но хакеры быстро выяснили, что можно опознать личность практически каждого пассажира по координатам. Например, если к твоему дому подъехало такси, то кто сядет в машину? Более того, по координатам можно определить, куда направился человек.

Исследователь из компании Neustar Research проследил маршруты разных знаменитостей. Он посмотрел, где они обедают, в каких ночных клубах развлекаются. Он даже выяснил, сколько они заплатили за каждую поездку. Оказалось, что звёздные личности редко дают чаевые.

Автор исследования говорит, что дата-майнинг позволяет, например, вычислить аудиторию стрипклубов. Так, на этой карте показаны координаты высадки посетителей стрипклуба Hustler Club во временные промежутки с 0 до 6 часов за все ночи 2013 года.

Map

База данных содержит информацию о 173 миллионах поездок. Кроме координат, времени и стоимости поездки, указан уникальный идентификатор автомобиля и другие метаданные. Формат данных указывает на попытку властей анонимизировать данные, скрыв номер автомобиля и номер лицензии. Однако власти сделали это  неграмотно, используя хэш-функцию MD5. Но поскольку диапазон номеров и лицензий ограничен, кто угодно может рассчитать хэш-функцию для всех номеров — и деанонимизировать базу.

Подробнее читайте здесь >>

Как известно, с сентября 2016 года вступит в силу закон, который предписывает хранить персональные данных россиян только на территории нашей страны.

Как сообщили во вторник «Известия», российский интернет-омбудсмен Дмитрий Мариничев предлагает изменить определение персональных данных (ПД) в российском законодательстве, мотивируя это тем, что «чтобы работать с информационными системами, надо четко понимать, что считается персональными данными. В текущей версии закона к ним относится практически всё что угодно». В предлагаемых поправках предлагается признать персональными данными только ту информацию о человеке, которая содержит «идентификационные данные» — «совокупность сведений, позволяющих установить личность физического лица». Кейс, описанный в этой статье, показывает, как открытые деперсонифицированные данные могут превратиться в персональные.