[Dutch] Taxi’s en Regenbogen: anonimisering geen gemakkelijke opgave

Ik schrijf in opdracht voor het Rathenau Instituut een serie blogs over ethische vraagstukken bij data-onderzoeken. In deze bijdrage laat ik zien dat het goed anonimiseren van open data geen eenvoudige opgave is. Ook gepubliceerd op het Data denkers blog. Deze blogpost is beschikbaar onder CC-BY.

Introductie

In 2013 kwam Chris Whong erachter dat de data van alle taxi-ritten in New York City opvraagbaar was via de Amerikaanse variant van een verzoek op de Wet Openbaarheid Bestuur (WOB). Na het invullen van wat formulieren en een paar dagen wachten ontving hij een USB stick met daarop bijna 20 Gigabyte aan data over de taxi-ritten in New York City in de afgelopen jaren.
Elke taxi-rit was beschreven door een regel met daarin ondermeer het begin- en eindtijd, vertrekpunt en eindpunt en het aantal passagiers. De prijs en de fooi waren in een apart bestand meegegeven. In de originele data was al deze data gekoppeld aan een taxi. In een poging die identiteit te verhullen, maar toch nuttige data op te leveren was dit versleuteld meegeleverd in de geopenbaarde data.

Chris Whong heeft mooie plaatjes en visualisaties gemaakt met de data die hij kreeg. Populaire plekken waar taxi’s langsrijden, frequentie waarmee taxi’s rijden, de inkomens en fooi verdeling, enzovoort. Hij heeft de data ook beschikbaar gesteld voor anderen, zodat andere “civiele hackers” ermee aan de slag konden. Al snel was er iemand die de versleutelde identificatienummers van de taxi’s eens beter bekeek.
Het viel ineens op dat er een nummer onmogelijk vaak terugkwam. Uiteindelijk bleek dat de versleuteling van het getal “0” te zijn, en zo werd de rest van de getallen vrij makkelijk gebroken door een zogenaamde “regenboog tabel” aan te leggen. De taxi identificatienummers hebben een vaste structuur en hebben daarom maar vrij weinig mogelijkheden. Met een computer is het vrij simpel om de versleuteling uit te rekenen voor elk van die nummers, en op die manier kan voor elke taxi regel de identificatiecode teruggerekend worden. Zo is vrij snel te zien welke taxi waar actief is geweest, en wat een chauffeur in een jaar verdiend heeft, inclusief fooien.

fullscreen_8_3_14__12_11_am1

Maar niet alleen de chauffeurs zijn slachtoffer van deze reidentificatie. Later is iemand aan de slag gegaan met foto’s van beroemdheden die in New York waren gesignaleerd terwijl ze in of uit een taxi stapten. Die foto’s zijn weer vrij makkelijk te koppelen aan een tijd, en samen met het nummer dat zichtbaar is op de taxi, kon zo de rit weer teruggevonden worden. En op die manier kon vastgesteld worden dat de ene beroemdheid wat scheutiger met fooien is dan een andere.

Duiding

Bovenstaand geval laat zien dat het niet simpel is om data te anonimiseren. De ambtenaar die het verzoek behandelde dacht met een simpele handeling de identificatie van taxi chauffeurs onmogelijk te maken, maar uiteindelijk bleek dat niet goed genoeg te zijn. In dit geval was er door een combinatie van onhandige versleuteling en teveel structuur in het origineel mogelijk om te deanonimiseren.

De deanonimisatie van data gebeurt niet alleen maar bij taxi-data in New York, maar kan bij allerlei data gebeuren. In Nederland wordt bij medische of statistische data vaak gereduceerd tot bijvoorbeeld de postcode, het geslacht en de geboortedatum, bijvoorbeeld om te kijken naar effecten van blootstelling aan luchtvervuiling in bepaalde gebieden, en of dat anders is voor mannen en voor vrouwen.

Een goede graadmeter voor anonimiteit in een dataset is de zogenaamde k-anonimiteit (Sweeney 2002); gegeven een set kenmerken, tot hoeveel personen kan je dat dan reduceren? Bijvoorbeeld, hoeveel mensen hebben nu precies dezelfde postcode, geslacht en geboortedatum? Het blijkt dat in Nederland een heel groot deel van de mensen uniek identificeerbaar zijn met die kenmerken. En als we het beperken tot de 4 cijfers van de postcode en de geboortedatum, zijn nog steeds tweederde van de Nederlanders nog steeds uniek (Koot 2010).

Conclusie

Anonimiseren van data is dus zo gemakkelijk nog niet. De structuur van de bron dataset, of het onderscheidend vermogen met algemene gegevens moet goed bekeken worden. Er moet een goede afweging gemaakt worden tussen wat er precies nodig is voor het analyseren van die dataset, en wat er wordt vrijgegeven. Deze afweging maken wordt ook steeds moeilijker, omdat er steeds meer verschillende data sets beschikbaar zijn. In Amerika moet je geregistreerd zijn om te mogen stemmen, en die dataset is publiek. Die dataset kan dan weer gebruikt worden om de anonimisatie in een andere dataset heel makkelijk ongedaan te maken (Sweeney 2002). In Nederland is dat iets moeilijker om te herleiden naar een naam, maar het is wel goed te doen om terug te komen tot een uniek persoon. Met wat extra moeite is dan een zo’n persoon vaak weer te heridentificeren.

Het is te overwegen om datasets niet zomaar uit te delen, maar om onderzoekers analysemethoden aan te laten leveren. Of om expliciet afspraken te maken over het vernietigen van de aangeleverde data.