image

Geanonimiseerde New Yorkse taxi-data eenvoudig ontmaskerd

dinsdag 24 juni 2014, 12:44 door Redactie, 8 reacties

Het anonimiseren van gegevens houdt niet in dat de inhoud nooit meer achterhaald kan worden, zeker als er zwakke anonimiseringstechnieken worden gebruikt, zo heeft een beveiligingsonderzoeker aangetoond. Onderzoeker Vijay Pandurangan ontving een bestand met 20GB aan ritjes van New Yorkse taxi's.

Het ging in totaal om 173 miljoen taxiritjes. Van elke rit was de ophaallocatie en bestemming vermeld, geanonimiseerde licentienummers en geanonimiseerde taxinummers en andere gedragsgegevens. Hoewel de licentienummers en taxinummers waren geanonimiseerd bleek dit niet adequaat gedaan te zijn. Pandurangan ontdekte dat beide nummers met het MD5-hashingalgoritme waren gecodeerd.

Invoer

Een hashingalgoritme geeft bij dezelfde invoer altijd dezelfde uitvoer weer. "Het is erg lastig om te achterhalen wat de invoer was als je niet weet hoe de invoer er mogelijk heeft uitgezien. Dat is precies wat je van een anonimiseringsfunctie wil. Het probleem is echter dat we in dit geval heel veel over de invoer weten", aldus Pandurangan. De licentienummers bestaan namelijk uit zes cijfers, of zeven cijfers en dan beginnend met een 5.

Dat houdt in dat er ongeveer 2 miljoen licentienummers mogelijk zijn. Hetzelfde geldt voor de taxinummers, die ook een voorspelbaar patroon volgen, bijvoorbeeld één cijfer, één letter en twee cijfers (5X55), of twee letters en drie cijfers (XX555) of drie letters en drie cijfers (XXX555).

In totaal zouden er zo'n 22 miljoen taxinummers mogelijk zijn. Dankzij deze variabelen en de rekenkracht van Amazon's clouddiensten wist de onderzoeker uiteindelijk de gehele dataset te de-anonimiseren. Pandurangan herhaalt dan ook het advies van andere onderzoekers, namelijk dat alleen het gebruik van een hashingfunctie niet voldoende is om data te anonimiseren.

Reacties (8)
24-06-2014, 13:26 door Anoniem
Toch zie ik cybercriminelen niet zomaar de amazon cloud afhuren voor dit soort doeleinden zonder dat zij de vraag krijgen wat ze nu precies aan het doen zijn.
24-06-2014, 13:37 door Anoniem
Voor 22 miljoen md5 hashes hoef je toch niet perse een clouddienst te gebruiken?
24-06-2014, 15:51 door Anoniem
Een rainbow table voor een paar getallen maken. Zodra je het hashing algoritme weet is dat kinderspel en ik kan me niet voorstellen dat zoiets langer dan een paar uur stampen op een gewone pc is...
24-06-2014, 16:44 door SPlid
De vraag is natuurlijk : hoe weet de onderzoeker nu dat de tabel van taxigegevens correct zijn daar MD5 hashing (en ook andere hashing technieken) hash collisions kunnen opleveren , dat wil zeggen dat meerdere teksten de zelfde hash kunnen opleveren . (zou dit niet het geval zijn zou hashing ten slotte de ultimate compressie techniek kunnen zijn daar naar heel veel rekenwerk er altijd de unieke tekst , welke elke lengte kan hebben, verschijnt en dat uit 16 bytes ;-) )
24-06-2014, 17:56 door drijfsandbox
Bij berichten als deze moet ik altijd denken aan het Don't Hash Secrets artikel van Ben Adida.

"So here it is: Don’t hash secrets. Never. No, sorry, I know you think your case is special but it’s not. No. Stop it. Just don’t do it. You’re making the cryptographers cry." - http://benlog.com/2008/06/19/dont-hash-secrets/
24-06-2014, 21:43 door Anoniem
Door Anoniem: Voor 22 miljoen md5 hashes hoef je toch niet perse een clouddienst te gebruiken?
Door Anoniem: Een rainbow table voor een paar getallen maken. Zodra je het hashing algoritme weet is dat kinderspel en ik kan me niet voorstellen dat zoiets langer dan een paar uur stampen op een gewone pc is...
Lees het originele artikel: de rainbow table was in 2 minuten gegenereerd op zijn eigen computer. De clouddienst heeft hij gebruikt om de aanzienlijk grotere dataset van ritten via een map-reduce-algoritme geparallelliseerd door te werken.
25-06-2014, 10:17 door Anoniem
Dus dit is hoe bedrijven data anonimiseren. Slaat toch werkelijk nergens op?! Anonimiseren wil op zijn minst zeggen velden verwijderen of als "0" instellen...?!

Zouden ze dit ook zo doen bij afgeschermde velden van een EPD...?
26-06-2014, 09:54 door Anoniem
Ik denk dat dit heel veel voorkomt.
Probleem is dat de personen die anonimiseren denken dat wanneer zij zelf de informatie niet meer zien, deze info ook door een ander niet meer te zien is. Ofwel, een gebrek aan kennis dus.

Bijna vergelijkbaar dus met het 'zwart maken' van tekst in een PDF document. Als je ervan uitgaat dat, omdat jij zelf de tekst achter het zwarte balkje niet meer ziet, een ander die tekst ook niet meer kan lezen..........
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.