Dataanonymisering gør Dem ikke anonym. Her er årsagen.

Når virksomheder siger, at Deres personoplysninger er anonymiserede, lyder det som om, at Deres online identitet er fjernet for altid. Deres oplysninger bliver til støj i et datasæt, så De kan sænke paraderne. Men det passer ikke helt.

Anonymiserede data er data, hvor de mest åbenlyse personlige identifikatorer er fjernet, såsom navn eller hjemadresse. Men i en verden fuld af sammenkoblede databaser kræver det kun en håndfuld tilsyneladende urelaterede detaljer at opspore nogen.

Forskning(nyt vindue) har vist, at der kun kræves 15 datapunkter for at identificere 99,98 % af personerne i et datasæt med millioner af mennesker. Og med AI, der forbinder punkterne på tværs af Deres online aktivitet, svinder kløften mellem “anonym” og “identificeret”.

Lad os tage et kig på, hvad dataanonymisering egentlig betyder, og hvad De kan gøre for bedre at beskytte Deres privatliv.

Hvad er dataanonymisering?
Anonymisering vs. pseudonymisering
Almindelige teknikker til dataanonymisering
Hvordan virksomheder bruger anonymiserede data
Datagenidentificering, eller hvorfor anonymiserede data ikke er ægte anonyme
AI gør de-anonymisering hurtigere og billigere
Beskyt Deres privatliv ved at minimere og kryptere data
Anonymisering er ikke en garanti for privatliv

Hvad er dataanonymisering?

Dataanonymisering er den irreversible proces med at fjerne alt personhenførbart fra datapunkter, såsom Deres navn, e-mailadresse, kontaktnummer eller fødselsdag. Målet er at bryde forbindelsen mellem en optegnelse og en person så meget som muligt.

Men efter anonymiseringen indeholder data stadig indirekte spor, såsom Deres generelle placering, browservaner og aldersgruppe. Hver for sig er disse detaljer ret harmløse, men når de ses under ét, danner de et mønster, der peger på Dem.

Et diagram, der forklarer, hvordan anonymisering fungerer

Nogle typer data, såsom biometriske, er særligt svære (eller ligefrem umulige) at anonymisere fuldstændigt. De kan oprette et sikkert brugernavn, men ikke ændre en persons ansigt, fingeraftryk eller irismønster.

Når data er virkelig anonymiseret, betragtes de ikke længere som personoplysninger under privatlivslovgivning som f.eks. GDPR. Det betyder, at virksomheder kan bruge dem uden de krav om samtykke og beskyttelse, der gælder for personoplysninger.

Men GDPR’s præambel 26(nyt vindue) sætter barren højt: Data må ikke længere identificere en person, selv når man tager andre oplysninger og metoder i betragtning, som med rimelighed kan anvendes til at genidentificere vedkommende. Så det er ikke nok at fjerne navne eller e-mailadresser, hvis de resterende data stadig peger tilbage på nogen.

Anonymisering vs. pseudonymisering

Mens anonymisering permanent fjerner identificerbare oplysninger for at sikre, at de ikke kan spores tilbage til en person, erstatter pseudonymisering disse data med en etiket, et token eller en kode. Den oprindelige identitet er lagret separat i en sikker nøgle eller opslagstabel, men med den rette adgang kan denne etiket kobles tilbage til en virkelig person.

Et eksempel på pseudonymisering er medicinsk forskning, hvor patienters navne erstattes med koder. Forskere kan stadig følge dataene, men kun autoriseret personale med nøglen kan forbinde dem til personen igen.

Denne forskel er enkel, men vigtig. Pseudonymisering betragtes som personoplysninger i henhold til regulativer som GDPR, fordi de stadig kan kobles tilbage til nogen. Anonymiserede data falder derimod kun uden for disse forpligtelser, når genidentificering ikke længere er rimelig muligt.

Almindelige teknikker til dataanonymisering

Virksomheder bruger forskellige anonymiseringsmetoder afhængigt af, hvordan de planlægger at bruge dataene. Her er nogle af de mest almindelige:

Datamaskering erstatter oplysninger med falske data, såsom at udskifte et telefonnummer med et fiktivt nummer.

Generalisering gør data mindre specifikke, som f.eks. ved at bruge aldersintervaller i stedet for en nøjagtig alder.

Databytte blander oplysninger på tværs af optegnelser, så de ikke længere matcher den oprindelige person.

Dataperturbation slører individuelle detaljer, mens datatendenser bevares, såsom at ændre data ved at afrunde tal.

Syntetiske data baserer sig på kunstige data, der efterligner mønstrene i det oprindelige datasæt uden direkte at bruge virkelige optegnelser.

Disse teknikker kan reducere risici for privatlivet, men deres effektivitet afhænger helt af, hvor godt de anvendes. Selv da fjerner de muligvis ikke alle spor, der kan identificere en person.

Hvordan virksomheder bruger anonymiserede data

Anonymiserede data er værdifulde, fordi virksomheder lovligt kan bruge dem, som de vil, uden Deres samtykke. Almindelige anvendelser omfatter:

Analyse og udvikling: Virksomheder studerer brugeradfærd for at forbedre produkter, måle tendenser og vejlede forretningsbeslutninger.

Annoncering: Browsing- og købsmønstre kan bruges til at opbygge målgruppesegmenter til målrettede annoncer, selv uden at Deres navn er tilknyttet.

Datamæglere: Nogle data aggregeres, pakkes og videresælges af datamæglere. Disse virksomheder kombinerer oplysninger fra apps, websteder, offentlige registre, kreditdata med mere for at opbygge detaljerede profiler, der sælges til enhver, der ønsker dem, med begrænset juridisk tilsyn.

Træning af AI-modeller: Store datasæt bruges ofte til at træne AI-systemer, herunder data hentet fra brugeraktivitet, købte datasæt og offentlige eller indsamlede kilder.

Medicinsk forskning: I nogle lande(nyt vindue) kan anonymiserede medicinske data sælges til medicinalvirksomheder eller deles med forskere.

Anonymiserede data kan bruges til gode formål, såsom at forbedre tjenester eller understøtte forskning. Problemet er, at det skaber et stærkt kommercielt incitament for datamæglere og annoncører til at indsamle, kombinere, dele, ompakke og sælge oplysninger om folk, ofte på måder, som de ikke fuldt ud forstår eller giver et meningsfuldt samtykke til. For folk, der senere beslutter, at de vil ud, er det ikke enkelt at fjerne deres data.

Californiens tilsynsmyndighed for privatlivets fred oprettede DROP(nyt vindue)-systemet, fordi det historisk set har været svært for enkeltpersoner at administrere at slette data fra hundredvis af datamæglere. Dette er meget sværere med AI-træningsdata, for når først data har påvirket en trænet model, kan fjernelse af dem kræve teknikker til machine unlearning(nyt vindue), som AI-virksomheder ikke har lyst til at benytte(nyt vindue).

Genidentificering af data, eller hvorfor anonymiserede data ikke er ægte anonyme

Hvis nogen fortæller Dem, at de leder efter en mand i 30’erne, der kører i en hvid bil og bor i Deres nabolag, har De måske allerede en god idé om, hvem de mener. Ingen af disse detaljer kan hver for sig identificere personen, men sammen hjælper de med at indsnævre mulighederne ved at udelukke alle andre. Anonymiserede data fungerer på samme måde: Selv hvis navne og kontaktdetaljer fjernes, kan de resterende oplysninger stadig være afslørende, når tilstrækkeligt mange detaljer kombineres.

Når disse mønstre krydsrefereres med andre kilder, såsom sociale medier eller offentlige registre, bliver det muligt at forbinde angiveligt anonyme data til en person. Dette er kendt som genidentificering, og det er ofte lettere, end De forventer.

Et diagram, der forklarer, hvordan genidentificering fungerer

Forskeren Latanya Sweeney købte et hospitalsdatasæt(nyt vindue) for $ 50, der indeholdt indirekte identifikatorer, såsom demografi, diagnoser og faktureringsdetaljer. Afslørende detaljer som navne var ikke inkluderet. Ved at krydsreferere disse data med lokale nyhedshistorier om indlæggelser var hun i stand til at matche 43 % af patienterne med deres optegnelser, herunder den fulde sygehistorie for en patient involveret i et rapporteret motorcykelulykke.

AI gør deanonymisering hurtigere og billigere

Hvis den eneste beskyttelse mod genidentificering fra anonyme data er tid, tålmodighed og manuel krydsreferering, er den tilfældige beskyttelse ved at erodere med AI.

Forskning viser, at store sprogmodeller (LLM’er) kan analysere en persons opslag på tværs af platforme, krydsreferere offentlige oplysninger og identificere anonyme brugere med utrolig præcision. I et studie om deanonymisering i stor skala(nyt vindue) identificerede LLM-baserede metoder op til 68 % af personerne, og når de fandt et match, var det korrekt i 90 % af tilfældene.

Sweeney skulle kun betale $ 50 for et datasæt med hundredtusindvis af optegnelser. I dag kan LLM’er deanonymisere profiler for $ 1-4 hver og udføre arbejdet automatisk. De har heller ikke brug for rene, strukturerede datasæt og kan spotte mønstre i almindelige opslag og kommentarer.

Som en af forskerne udtrykker det:

“Spørg Dem selv: Ville et hold smarte efterforskere kunne finde ud af, hvem De er, ud fra Deres opslag? Hvis ja, kan LLM-agenter sandsynligvis gøre det samme, og omkostningerne ved at gøre det falder kun.”

Beskyt Deres privatliv ved at minimere og kryptere data

Anonymisering af data er ikke nok, da genidentificering kan ske, når punkterne forbindes. Den bedste måde at beskytte Dem selv på er at minimere Deres digitale fodaftryk, hvilket gør Dem sværere at genidentificere.

De behøver ikke at gå helt offline, men De bør være mere bevidst om, hvad og hvordan De deler. Her er nogle praktiske tips:

Opdel Deres identitet for at beskytte mod krydsreferencer

Når De bruger den samme e-mail og det samme brugernavn på alle platforme, er det nemt at samle Deres detaljer. Det er enkelt at generere forskellige brugernavne til forskellige konti, men at bruge unikke e-mailadresser til alt kan være et mareridt, medmindre De bruger e-mail-aliaser.

Aliaser opretter separate adresser, der videresender beskeder til Deres primære indbakke uden at afsløre Deres rigtige e-mailadresse og identitet. Hvis De bruger et unikt e-mail-alias til hver tjeneste, kan De se, hvor en lækage eller et salg stammer fra.

Hvis De for eksempel opretter ét alias udelukkende til Virksomhed A og senere modtager e-mails til det alias fra Virksomhed B, ved De, at Virksomhed A enten har delt, solgt, lækket eller mistet kontrollen over Deres adresse. De kan derefter deaktivere det alias uden at påvirke Deres primære indbakke eller Deres andre aliaser.

Vær inkonsekvent for at beskytte mod identificerbare mønstre

Jo mere konsekvente Deres detaljer er på tværs af platforme, jo lettere er det at opbygge en unik profil omkring Dem. Undgå, hvor det er muligt, at give flere oplysninger end nødvendigt.

Brug for eksempel en generel placering i stedet for Deres præcise by, rund Deres alder op eller ned, og spring valgfrie felter over. Overvej også at lave små variationer i Deres skrivestil, såsom gentagne vendinger, tegnsætning eller almindelige stavefejl, for at begrænse automatiseret identifikation.

Begræns Deres digitale fodaftryk for at beskytte mod AI-analyse

LLM’er kan identificere personer ved at finde mønstre i opslag og tekster. Jo mindre offentligt indhold, der er knyttet til Deres identitet, jo mindre materiale er der at arbejde med. Overvej, hvor mange personlige detaljer De afslører, når De poster — ikke kun fakta, men vaner, holdninger og tilbagevendende emner, der får Dem til at skille Dem ud. Sørg for at framelde Dem AI-træning på så mange platforme som muligt.

Brug end-to-end krypterede tjenester for at beskytte mod dataindsamling

Kryptering beskytter ikke kun data mod hackere, men begrænser, hvad der overhovedet kan læses. En mailudbyder, der ikke kan læse Deres beskeder, kan ikke scanne dem til annoncering, bruge dem til AI-træning eller dele indsigt med mæglere.

Brug end-to-end krypteret e-mail til privat kommunikation, sikker skylagerplads til sikker opbevaring og deling af filer, og en VPN(nyt vindue) uden logføring til at kryptere Deres browsingaktivitet — alt sammen noget, der reducerer mængden af data, De ufrivilligt blotlægger.

Frameld Dem dataindsamling for at beskytte mod mæglere

Det er muligt at fjerne personlige oplysninger fra internettet, selv fra datamæglere, men det kræver vedholdenhed. Det stopper ikke fremtidig dataindsamling, men det kan give Dem en frisk start. Fremover vil minimering af Deres digitale fodaftryk og kryptering af Deres data, hvor det er muligt, hjælpe med at begrænse, hvad der bliver indsamlet.

Et diagram, der forklarer, hvordan man gør sig selv mere anonym

Anonymisering er ikke en garanti for privatliv

Den vigtigste pointe er, at “anonymiseret” ikke altid betyder sikkert, permanent eller umuligt at spore. Jo færre personlige oplysninger De deler, jo mindre konsekvent De er på tværs af platforme, og jo mere kontrol De bevarer over Deres konti og aliaser, desto færre signaler er der til at linke tilbage til Dem.

Deres data er måske anonymiseret på papiret, men Deres stærkeste beskyttelse starter før det punkt: med hvad og hvor De vælger at dele, og hvor let det kan forbindes med resten af Deres digitale liv. Det betyder også at være bevidst om de tjenester, De bruger hver dag, og de virksomheder, der ejer dem.

Proton-apps er open source, reklamefri og designet til at undgå sporing og AI-træning på alle Deres data. Med end-to-end kryptering, zero-access kryptering og en forretningsmodel, der udelukkende finansieres af vores fællesskab af betalende abonnenter, har vi ikke brug for at udnytte Deres data, vi kan ikke læse størstedelen af dem — og vi ønsker det ikke.

Anonymisering forklaret: Hvis Deres data er anonyme, hvorfor kan annoncører så stadig målrette annoncer til Dem?