Gegevensanonimisering maakt u niet anoniem. Dit is waarom.

Wanneer bedrijven zeggen dat uw persoonsgegevens zijn geanonimiseerd, klinkt het alsof uw online identiteit voorgoed is weggepoetst. Uw informatie wordt ruis in een dataset, dus u kunt uw waakzaamheid laten varen. Nou, niet helemaal.

Geanonimiseerde gegevens zijn gegevens waarbij de meest voor de hand liggende persoonlijke identificatoren zijn verwijderd, zoals naam of woonadres. Maar in een wereld vol onderling verbonden databases zijn er slechts een handvol schijnbaar ongerelateerde gegevens nodig om iemand te achterhalen.

Onderzoek(nieuw venster) heeft aangetoond dat er slechts 15 gegevenspunten nodig zijn om 99,98% van de mensen in een dataset van miljoenen te identificeren. En met AI die de puntjes verbindt tussen uw online activiteiten, wordt de kloof tussen “anoniem” en “geïdentificeerd” steeds kleiner.

Laten we eens kijken wat anonimisering van gegevens eigenlijk betekent en wat u kunt doen om uw privacy beter te beschermen.

Wat is anonimisering van gegevens?
Anonimisering versus pseudonimisering
Veelgebruikte technieken voor gegevensanonimisering
Hoe bedrijven geanonimiseerde gegevens gebruiken
Heridentificatie van gegevens, of waarom geanonimiseerde gegevens niet echt anoniem zijn
AI maakt deanonimisering sneller en goedkoper
Bescherm uw privacy door gegevens te minimaliseren en te versleutelen
Anonimisering is geen privacygarantie

Wat is anonimisering van gegevens?

Anonimisering van gegevens is het onomkeerbare proces van het verwijderen van alles wat persoonlijk identificeerbaar is uit gegevenspunten, zoals uw naam, e-mailadres, contactnummer of verjaardag. Het doel is om de koppeling tussen een record en een persoon zoveel mogelijk te verbreken.

Na anonimisering bevatten de gegevens echter nog steeds indirecte aanwijzingen, zoals uw algemene locatie, surfgedrag en leeftijdscategorie. Afzonderlijk zijn deze gegevens vrij onschadelijk, maar alles bij elkaar vormen ze een patroon dat naar u wijst.

Een diagram dat uitlegt hoe anonimisering werkt

Sommige soorten gegevens, zoals biometrische gegevens, zijn bijzonder moeilijk (of zelfs onmogelijk) om echt te anonimiseren. U kunt een veilige gebruikersnaam aanmaken, maar het gezicht, de vingerafdruk of het irispatroon van een persoon kunt u niet veranderen.

Wanneer gegevens echt geanonimiseerd zijn, worden ze onder privacywetgeving zoals de GDPR niet langer als persoonlijk beschouwd. Dat betekent dat bedrijven deze mogen gebruiken zonder de toestemmings- en beschermingseisen die voor persoonsgegevens gelden.

Maar overweging 26 van de GDPR(nieuw venster) legt de lat hoog: gegevens mogen een persoon niet langer identificeren, zelfs niet wanneer andere informatie en methoden in aanmerking worden genomen die redelijkerwijs zouden kunnen worden gebruikt voor heridentificatie. Het verwijderen van namen of e-mailadressen is dus niet voldoende als de resterende gegevens nog steeds naar iemand terugleiden.

Anonimisering versus pseudonimisering

Terwijl anonimisering identificeerbare informatie permanent verwijdert om ervoor te zorgen dat deze niet kan worden herleid tot een individu, vervangt pseudonimisering die gegevens door een label, token of code. De oorspronkelijke identiteit wordt afzonderlijk opgeslagen in een beveiligde sleutel of opzoektabel, maar met de juiste toegang kan dat label worden teruggekoppeld naar een echte persoon.

Een voorbeeld van pseudonimisering is medisch onderzoek, waarbij patiëntnamen worden vervangen door codes. Onderzoekers kunnen de gegevens nog steeds volgen, maar alleen geautoriseerd personeel met de sleutel kan deze opnieuw verbinden met het individu.

Dit verschil is eenvoudig maar belangrijk. Pseudonimisering wordt beschouwd als persoonsgegevens onder regelgeving zoals de GDPR, omdat het nog steeds aan iemand gekoppeld kan worden. Geanonimiseerde gegevens vallen daarentegen alleen buiten die verplichtingen wanneer heridentificatie redelijkerwijs niet meer mogelijk is.

Veelgebruikte technieken voor gegevensanonimisering

Bedrijven gebruiken verschillende anonimiseringsmethoden, afhankelijk van hoe zij van plan zijn de gegevens te gebruiken. Hier volgen enkele veelvoorkomende methoden:

Gegevensmaskering vervangt informatie door valse gegevens, zoals het vervangen van een telefoonnummer door een fictief nummer.

Generalisatie maakt gegevens minder specifiek, zoals het gebruik van leeftijdscategorieën in plaats van een exacte leeftijd.

Gegevenswisseling husselt informatie door records heen, zodat deze niet langer overeenkomen met de oorspronkelijke persoon.

Gegevensperturbatie verbergt individuele gegevens terwijl gegevenstrends behouden blijven, bijvoorbeeld door gegevens te wijzigen door getallen af te ronden.

Synthetische gegevens maken gebruik van kunstmatige gegevens die de patronen van de originele dataset imiteren zonder direct echte records te gebruiken.

Deze technieken kunnen privacyrisico’s verminderen, maar de effectiviteit ervan hangt volledig af van hoe goed ze worden toegepast. Zelfs dan verwijderen ze mogelijk niet elke aanwijzing die iemand zou kunnen identificeren.

Hoe bedrijven geanonimiseerde gegevens gebruiken

Geanonimiseerde gegevens zijn waardevol omdat bedrijven deze legaal kunnen gebruiken zoals ze willen, zonder uw toestemming. Veelvoorkomende toepassingen zijn onder meer:

Analyse en ontwikkeling: Bedrijven bestuderen het gedrag van de gebruiker om producten te verbeteren, trends te meten en zakelijke beslissingen te sturen.

Advertenties: Browse- en aankooppatronen kunnen worden gebruikt om doelgroepsegmenten op te bouwen voor gerichte advertenties, zelfs zonder dat uw naam eraan gekoppeld is.

Gegevensmakelaars: Sommige gegevens worden verzameld, gebundeld en doorverkocht door gegevensmakelaars. Deze bedrijven combineren informatie uit apps, websites, openbare registers, kredietgegevens en meer om gedetailleerde profielen op te stellen die worden verkocht aan wie ze maar wil, met weinig juridisch toezicht.

AI-modellen trainen: Grote datasets worden vaak gebruikt om AI-systemen te trainen, inclusief gegevens afkomstig van activiteiten van de gebruiker, aangekochte datasets en openbare of gescrapte bronnen.

Medisch onderzoek: In sommige landen(nieuw venster) kunnen geanonimiseerde medische gegevens worden verkocht aan farmaceutische bedrijven of worden gedeeld met onderzoekers.

Geanonimiseerde gegevens kunnen voor goede doeleinden worden gebruikt, zoals het verbeteren van diensten of ondersteuning van onderzoek. Het probleem is dat het een sterke commerciële prikkel creëert voor gegevensmakelaars en adverteerders om informatie over mensen te verzamelen, combineren, delen, herverpakken en verkopen, vaak op manieren die mensen niet volledig begrijpen of waarvoor ze geen betekenisvolle toestemming geven. Voor mensen die later besluiten dat ze dit niet meer willen, is het verwijderen van hun gegevens niet eenvoudig.

De privacyregulator van Californië heeft het DROP(nieuw venster)-systeem gecreëerd omdat het verwijderen van gegevens bij honderden gegevensmakelaars historisch gezien moeilijk te beheren was voor individuen. Dit is veel moeilijker met AI-trainingsgegevens, want zodra gegevens een getraind model hebben beïnvloed, kan het verwijderen ervan machine-unlearning(nieuw venster)-technieken vereisen waar AI-bedrijven niet happig op zijn(nieuw venster).

Heridentificatie van gegevens, of waarom geanonimiseerde gegevens niet echt anoniem zijn

Als iemand u vertelt dat hij op zoek is naar een man van in de dertig die in een witte auto rijdt en in uw buurt woont, heeft u misschien al een goed idee van wie hij bedoelt. Geen van die gegevens kan de persoon afzonderlijk identificeren, maar samen helpen ze de mogelijkheden te beperken door alle anderen uit te sluiten. Geanonimiseerde gegevens werken op dezelfde manier: zelfs als namen en contactgegevens worden verwijderd, kan de resterende informatie nog steeds onthullend zijn wanneer er genoeg gegevens worden gecombineerd.

Wanneer deze patronen worden getoetst aan andere bronnen, zoals sociale media of openbare registers, wordt het mogelijk om zogenaamd anonieme gegevens aan een persoon te verbinden. Dit staat bekend als heridentificatie, en het is vaak eenvoudiger dan u verwacht.

Een diagram waarin wordt uitgelegd hoe heridentificatie werkt

Onderzoekster Latanya Sweeney kocht voor $ 50 een dataset van een ziekenhuis(nieuw venster) die indirecte identificatoren bevatte, zoals demografische gegevens, diagnoses en factuurgegevens. Onthullende gegevens zoals namen waren niet opgenomen. Door deze gegevens te kruisen met lokaal nieuws over ziekenhuisopnames, kon ze 43 % van de patiënten koppelen aan hun records, inclusief de volledige medische geschiedenis van een patiënt die betrokken was bij een gemeld motorongeluk.

AI maakt deanonymisering sneller en goedkoper

Als de enige bescherming tegen heridentificatie van anonieme gegevens tijd, geduld en handmatige kruisverwijzingen is, dan brokkelt die incidentele bescherming af door AI.

Onderzoek toont aan dat grote taalmodellen (LLM’s) iemands berichten op verschillende platforms kunnen analyseren, openbare informatie kunnen kruisen en anonieme gebruikers met ongelooflijke precisie kunnen identificeren. In één onderzoek naar deanonymisering op grote schaal(nieuw venster) identificeerden op LLM gebaseerde methoden tot 68 % van de mensen, en wanneer ze een match vonden, was deze in 90 % van de gevallen correct.

Sweeney hoefde slechts $ 50 te betalen voor een dataset met honderdduizenden records. Tegenwoordig kunnen LLM’s profielen deanonymiseren voor $ 1-4 per stuk en het werk automatisch doen. Ze hebben bovendien geen schone, gestructureerde datasets nodig en kunnen patronen herkennen in gewone berichten en reacties.

Zoals een van de onderzoekers het verwoordt:

“Vraag uzelf af: zou een team van slimme onderzoekers op basis van uw berichten kunnen achterhalen wie u bent? Indien ja, dan kunnen LLM-agenten waarschijnlijk hetzelfde doen, en de kosten hiervoor dalen alleen maar.”

Bescherm uw privacy door gegevens te minimaliseren en te versleutelen

Het anonimiseren van gegevens is niet voldoende, aangezien heridentificatie kan plaatsvinden wanneer verbanden worden gelegd. De beste manier om uzelf te beschermen is door uw digitale voetafdruk te minimaliseren, waardoor u moeilijker te heridentificeren bent.

U hoeft niet volledig van de radar te verdwijnen, maar u zou bewuster moeten omgaan met wat en hoe u deelt. Hier zijn enkele praktische tips:

Compartmentaliseer uw identiteit ter bescherming tegen kruisverwijzingen

Wanneer u op alle platforms hetzelfde e-mailadres en dezelfde gebruikersnaam gebruikt, zijn uw gegevens eenvoudig samen te voegen. Het is eenvoudig om verschillende gebruikersnamen te genereren voor verschillende accounts, maar het gebruik van unieke e-mailadressen voor alles kan een nachtmerrie zijn, tenzij u e-mailadressen aliases gebruikt.

Aliassen creëren afzonderlijke adressen die berichten doorsturen naar uw hoofdinbox zonder uw echte e-mailadres en identiteit prijs te geven. Als u voor elke dienst een uniek e-mailadres alias gebruikt, kunt u zien waar een lek of verkoop vandaan komt.

Als u bijvoorbeeld één alias aanmaakt voor Bedrijf A en later e-mails op die alias ontvangt van Bedrijf B, weet u dat Bedrijf A uw adres heeft gedeeld, verkocht, gelekt of de controle erover heeft verloren. U kunt die alias vervolgens uitschakelen zonder dat dit gevolgen heeft voor uw hoofdinbox of uw andere aliassen.

Wees inconsistent ter bescherming tegen identificeerbare patronen

Hoe consistenter uw gegevens zijn over verschillende platforms, des te gemakkelijker het is om een uniek profiel van u op te bouwen. Vermijd waar mogelijk het verstrekken van meer informatie dan nodig is.

Gebruik bijvoorbeeld een algemene locatie in plaats van uw exacte woonplaats, rond uw leeftijd af en sla optionele velden over. Overweeg ook om kleine variaties aan te brengen in uw schrijfstijl, zoals herhaalde zinnen, interpunctie of veelvoorkomende typefouten, om geautomatiseerde identificatie te beperken.

Beperk uw digitale voetafdruk ter bescherming tegen AI-analyse

LLM’s kunnen mensen identificeren door patronen in berichten en teksten te vinden. Hoe minder openbare inhoud aan uw identiteit is gekoppeld, hoe minder materiaal er is om mee te werken. Denk na over hoeveel persoonlijke gegevens u prijsgeeft wanneer u een bericht plaatst — niet alleen feiten, maar ook gewoonten, meningen en terugkerende onderwerpen die u laten opvallen. Zorg ervoor dat u zich op zoveel mogelijk platforms afmeldt voor AI-training.

Gebruik end-to-end versleutelde diensten ter bescherming tegen gegevensverzameling

Versleuteling beschermt gegevens niet alleen tegen hackers, maar beperkt ook wat er überhaupt gelezen kan worden. Een e-mailprovider die uw berichten niet kan lezen, kan ze niet scannen voor advertenties, ze niet gebruiken voor AI-training of inzichten delen met gegevensmakelaars.

Gebruik end-to-end versleutelde e-mail voor privécommunicatie, veilige cloudopslag om bestanden veilig te bewaren en te delen, en een no-logs VPN(nieuw venster) om uw surfactiviteiten te versleutelen — dit alles vermindert de hoeveelheid gegevens die u ongewild blootstelt.

Meld u af voor gegevensverzameling ter bescherming tegen makelaars

Het is mogelijk om persoonlijke informatie van het internet te verwijderen, zelfs bij gegevensmakelaars, maar dit vereist doorzettingsvermogen. Het zal toekomstige gegevensverzameling niet stoppen, maar het kan u een nieuwe start geven. Door voortaan uw digitale voetafdruk te minimaliseren en uw gegevens waar mogelijk te versleutelen, helpt u te beperken wat er wordt verzameld.

Een diagram waarin wordt uitgelegd hoe u uzelf anoniemer kunt maken

Anonimisering is geen garantie voor privacy

De belangrijkste les is dat “geanonimiseerd” niet altijd veilig, permanent of onmogelijk te traceren betekent. Hoe minder persoonlijke informatie u deelt, hoe minder consistent u bent op verschillende platforms en hoe meer controle u houdt over uw accounts en aliassen, des te minder signalen er zijn om naar u terug te leiden.

Uw gegevens mogen op papier dan wel geanonimiseerd zijn, uw sterkste bescherming begint vóór dat punt: bij wat en waar u besluit te delen, en hoe gemakkelijk dit verbonden kan worden met de rest van uw digitale leven. Dat betekent ook dat u bewust moet omgaan met de diensten die u dagelijks gebruikt en de bedrijven die de eigenaar daarvan zijn.

Proton-apps zijn open source, reclamevrij en ontworpen om tracking en AI-training op uw gegevens te vermijden. Dankzij end-to-end versleuteling, zero-access-versleuteling en een bedrijfsmodel dat uitsluitend wordt gefinancierd door onze gemeenschap van betalende abonnees, hoeven wij uw gegevens niet te exploiteren, kunnen wij het merendeel ervan niet lezen — en dat willen we ook niet.

Uitleg over anonimisering: Als uw gegevens anoniem zijn, waarom kunnen adverteerders u dan nog steeds targeten?