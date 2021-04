Organisaties die zeggen zij anonieme gegevens verwerken doordat de data 'gehasht en afgeknipt' is gaan bij deze vorm van anonimisering vaak de fout in, waardoor de gegevens toch niet anoniem blijken te zijn. Dat stelt de Autoriteit Persoonsgegevens dat op praktische problemen wijst bij het afknippen van hashes.

Een manier om gegevens te anonimiseren is het gebruik van k-anonimity. Hierbij wordt een dataset zo veranderd dat iedere combinatie van attributen altijd minstens k keer voorkomt. "Onder de juiste omstandigheden en als k groot genoeg is, is het herleiden van personen dan onmogelijk. Iedere persoon maakt dan deel uit van een groep gelijken. Immers (k-1) anderen hebben dezelfde attributen", aldus de privacytoezichthouder.

Het afronden van attributen is een manier om groepen te maken. In het geval van leeftijd kun je afronden op tientallen. Zo vallen personen die bijvoorbeeld 29, 27 of 21 jaar zijn allemaal in dezelfde groep, namelijk die met de leeftijd 20. Een andere methode is het afknippen, waarbij je één symbool van rechts gezien afknipt. In het gegeven voorbeeld zouden de drie personen in de groep met de leeftijd 2 terechtkomen.

Dit werkt anders bij een telefoonnummer, ip-adres of persoonlijke identifier. "Aan een afgeknipt ip-adres kun je bijvoorbeeld nog steeds zien bij welke internetprovider iemand zit en soms ook in welke omgeving deze persoon woont", laat de Autoriteit Persoonsgegevens weten. Om dergelijke bevindingen te voorkomen worden dit soort gegevens vaak gehasht.

Bij ongehashte telefoonnummers zorgt het afknippen van twee symbolen voor groepen tot 100 telefoonnummers. In het geval van gehashte telefoonnummer is elke hashwaarde uniek, ook na het afknippen van enkele symbolen. "Maar hoeveel moet je dan afknippen om van gehashte attributen groepen te maken? Het antwoord is afhankelijk van de dataset, maar in veel gevallen: bijna alles", stelt de privacytoezichthouder.

Wanneer er namelijk van gehashte attributen te weinig symbolen worden afgeknipt, bevat de datastet nog steeds persoonsgegevens. "Want te weinig afknippen van hashwaardes laat unieke identificatoren achter. En dan is er dus géén sprake van geanonimiseerde gegevens", concludeert de Autoriteit Persoonsgegevens.