Dataanonymisering gjør deg ikke anonym. Her er grunnen.

Når selskaper sier at dine personopplysninger er anonymisert, høres det ut som om din påloggede identitet er skrubbet bort for godt. Informasjonen din blir støy i et datasett, så du kan senke garden. Vel, ikke helt.

Anonymiserte data er data der de mest åpenbare personlige identifikatorene er fjernet, som navn eller hjemmeadresse. Men i en verden full av sammenkoblede databaser skal det bare en håndfull tilsynelatende urelaterte detaljer til for å spore opp noen.

Forskning(nytt vindu) har vist at bare 15 datapunkter er nødvendige for å identifisere 99,98 % av personene i et datasett på flere millioner. Og med kunstig intelligens som kobler sammen punktene i din påloggede aktivitet, krymper gapet mellom «anonym» og «identifisert».

La oss ta en titt på hva dataanonymisering faktisk betyr, og hva du kan gjøre for å beskytte personvernet ditt bedre.

Hva er dataanonymisering?
Anonymisering kontra pseudonymisering
Vanlige teknikker for dataanonymisering
Hvordan selskaper bruker anonymiserte data
Gjenidentifisering av data, eller hvorfor anonymiserte data ikke er genuint anonyme
KI gjør de-anonymisering raskere og billigere
Beskytt personvernet ditt ved å minimere og kryptere data
Anonymisering er ingen garanti for personvern

Hva er dataanonymisering?

Dataanonymisering er den irreversible prosessen med å fjerne alt personlig identifiserbart fra datapunkter, som navnet ditt, e-postadresse, kontaktnummer eller bursdag. Målet er å bryte lenken mellom en oppføring og en person så mye som mulig.

Etter anonymisering inneholder dataene imidlertid fortsatt indirekte ledetråder, som din generelle plassering, nettleserfeller og aldersgruppe. Hver for seg er disse detaljene ganske harmløse, men når de ses under ett, danner de et mønster som peker på deg.

Et diagram som forklarer hvordan anonymisering fungerer

Noen typer data, som biometriske, er spesielt vanskelige (eller til og med umulige) å virkelig anonymisere. Du kan lage et trygt brukernavn, men ikke endre en persons ansikt, fingeravtrykk eller irismønster.

Når data er genuint anonymisert, regnes de ikke lenger som personopplysninger under personvernlover som GDPR. Det betyr at selskaper kan bruke dem uten samtykke og de beskyttelseskravene som gjelder for personopplysninger.

Men GDPRs fortale 26(nytt vindu) setter listen høyt: data må ikke lenger kunne identifisere en person, selv når man tar i betraktning annen informasjon og metoder som med rimelighet kan brukes til å gjenidentifisere dem. Derfor er det ikke nok å fjerne navn eller e-postadresser hvis de gjenværende dataene fortsatt peker tilbake på noen.

Anonymisering kontra pseudonymisering

Mens anonymisering permanent fjerner identifiserbar informasjon for å sikre at den ikke kan spores tilbake til et individ, erstatter pseudonymisering disse dataene med en etikett, token eller kode. Den opprinnelige identiteten er lagret separat i en sikker nøkkel eller oppslagstabell, men med riktig tilgang kan den etiketten kobles tilbake til en ekte person.

Et eksempel på pseudonymisering er medisinsk forskning, der pasientnavn erstattes med koder. Forskere kan fortsatt spore dataene, men bare autorisert personell med nøkkelen kan koble det til individet igjen.

Denne forskjellen er enkel, men viktig. Pseudonymisering regnes som personopplysninger under forskrifter som GDPR fordi det fortsatt kan lenkes tilbake til noen. Anonymiserte data, derimot, faller utenfor disse forpliktelsene først når gjenidentifisering ikke lenger er rimelig mulig.

Vanlige teknikker for dataanonymisering

Selskaper bruker ulike anonymiseringsmetoder avhengig av hvordan de planlegger å bruke dataene. Her er noen vanlige metoder:

Datamaskering erstatter informasjon med falske data, for eksempel ved å bytte ut et telefonnummer med et fiktivt ett.

Generalisering gjør data mindre spesifikke, som å bruke aldersgrupper fremfor en nøyaktig alder.

Databytting stokker informasjon på tvers av poster slik at de ikke lenger samsvarer med den opprinnelige personen.

Dataforstyrrelse skjuler individuelle detaljer mens datatrender bevares, for eksempel ved å endre data ved å runde av tall.

Syntetiske data baserer seg på kunstige data som etterligner mønstrene i det opprinnelige datasettet uten å bruke reelle poster direkte.

Disse teknikkene kan redusere personvernrisikoer, men effektiviteten avhenger helt av hvor godt de blir brukt. Selv da kan det hende de ikke fjerner hvert spor som kan identifisere noen.

Hvordan selskaper bruker anonymiserte data

Anonymiserte data er verdifulle fordi selskaper lovlig kan bruke dem slik de vil, uten ditt samtykke. Vanlige bruksområder inkluderer:

Analyse og utvikling: Selskaper studerer brukeratferd for å forbedre produkter, måle trender og styre forretningsbeslutninger.

Annonsering: Nettleser- og kjøpsmønstre kan brukes til å bygge publikumssegmenter for målrettede annonser, selv uten at navnet ditt er knyttet til det.

Datameglere: Noen data blir samlet, pakket og videresolgt av datameglere. Disse selskapene kombinerer informasjon fra apper, nettsteder, offentlige registre, kredittdata og mer for å bygge detaljerte profiler som selges til hvem som helst som vil ha dem, med lite juridisk tilsyn.

Trening av AI-modeller: Store datasett brukes ofte til å trene AI-systemer, inkludert data hentet fra brukeraktivitet, kjøpte datasett og offentlige eller skrapte kilder.

Medisinsk forskning: I enkelte land(nytt vindu) kan anonymiserte medisinske data selges til farmasøytiske selskaper eller deles med forskere.

Anonymiserte data kan brukes til det gode, for eksempel for å forbedre tjenester eller støtte forskning. Problemet er at det skaper et sterkt kommersielt insentiv for datameglere og annonsører til å samle inn, kombinere, dele, pakke om og selge informasjon om folk, ofte på måter de ikke fullt ut forstår eller gir et meningsfylt samtykke til. For folk som senere bestemmer seg for at de vil ut, er det ikke enkelt å fjerne dataene sine.

Californias personvernmyndighet opprettet DROP(nytt vindu)-systemet fordi sletting av data fra hundrevis av datameglere historisk sett har vært vanskelig for enkeltpersoner å administrere. Dette er mye vanskeligere med AI-treningsdata, for når data først har påvirket en trent modell, kan fjerning av dem kreve teknikker for «machine unlearning»(nytt vindu) som AI-selskaper ikke har lyst til å bruke(nytt vindu).

Reidentifisering av data, eller hvorfor anonymiserte data ikke er virkelig anonyme

Hvis noen forteller deg at de leter etter en mann i 30-årene som kjører en hvit bil og bor i nabolaget ditt, har du kanskje allerede en god formening om hvem de mener. Ingen av disse detaljene kan identifisere personen hver for seg, men sammen hjelper de med å begrense mulighetene ved å ekskludere alle andre. Anonymiserte data fungerer på samme måte: Selv om navn og kontaktdetaljer fjernes, kan den gjenværende informasjonen fortsatt være avslørende når nok detaljer kombineres.

Når disse mønstrene kryssrefereres med andre kilder, for eksempel sosiale medier eller offentlige registre, blir det mulig å koble angivelig anonyme data til en person. Dette er kjent som reidentifisering, og det er ofte enklere enn du forventer.

Et diagram som forklarer hvordan reidentifisering fungerer

Forskeren Latanya Sweeney kjøpte et sykehusdatasett(nytt vindu) for 50 dollar som inneholdt indirekte identifikatorer, som demografi, diagnoser og faktureringsdetaljer. Avslørende detaljer som navn var ikke inkludert. Ved å kryssreferere disse dataene med lokale nyhetssaker om sykehusinnleggelser, klarte hun å matche 43 % av pasientene til deres poster, inkludert den fullstendige sykehistorien til en pasient involvert i en rapportert motorsykkelulykke.

AI gjør deanonymisering raskere og billigere

Hvis den eneste beskyttelsen mot reidentifisering fra anonyme data er tid, tålmodighet og manuell kryssreferering, er den tilfeldige beskyttelsen i ferd med å forvitre med AI.

Forskning viser at store språkmodeller (LLM-er) kan analysere en persons artikler på tvers av plattformer, kryssreferere offentlig informasjon og identifisere anonyme brukere med utrolig presisjon. I en studie om deanonymisering i stor skala(nytt vindu) identifiserte LLM-baserte metoder opptil 68 % av personene, og når de fikk treff, var det korrekt 90 % av gangene.

Sweeney trengte bare å betale 50 dollar for et datasett med hundretusenvis av poster. I dag kan LLM-er deanonymisere profiler for 1–4 dollar hver og gjøre jobben automatisk. De trenger heller ikke rene, strukturerte datasett og kan oppdage mønstre i vanlige artikler og kommentarer.

Som en av forskerne uttrykker det:

«Spør deg selv: Kan et team med smarte etterforskere finne ut hvem du er fra artiklene dine? Hvis ja, kan LLM-agenter sannsynligvis gjøre det samme, og kostnaden for å gjøre det går bare ned.»

Beskytt personvernet ditt ved å minimere og kryptere data

Anonymisering av data er ikke nok, ettersom reidentifisering kan skje når man kobler til punktene. Den beste måten å beskytte deg selv på er å minimere ditt digitale fotavtrykk, slik at du blir vanskeligere å reidentifisere.

Du trenger ikke å koble helt av, men du bør være mer bevisst på hva og hvordan du deler. Her er noen praktiske tips:

Del opp identiteten din for å beskytte mot kryssreferanser

Når du bruker samme e-post og brukernavn på alle plattformer, er det enkelt å sette sammen detaljene dine. Det er enkelt å generere forskjellige brukernavn for forskjellige kontoer, men å bruke unike e-postadresser til alt kan være et mareritt med mindre du bruker e-postaliaser.

Aliaser oppretter separate adresser som videresender meldinger til din hovedinnboks uten å avsløre din virkelige e-postadresse og identitet. Hvis du bruker et unikt e-postalias for hver tjeneste, kan du se hvor en lekkasje eller et salg kom fra.

Hvis du for eksempel oppretter ett alias kun for Selskap A og senere mottar e-poster til det aliaset fra Selskap B, vet du at Selskap A enten har delt, solgt, lekket eller mistet kontrollen over adressen din. Du kan da deaktivere det aliaset uten at det påvirker hovedinnboksen din eller dine andre aliaser.

Vær inkonsekvent for å beskytte deg mot identifiserbare mønstre

Jo mer konsekvente detaljer du har på tvers av plattformer, jo lettere er det å bygge en unik profil rundt deg. Der det er mulig bør du unngå å oppgi mer informasjon enn nødvendig.

Bruk for eksempel en generell plassering i stedet for nøyaktig by, rund av alderen din og hopp over valgfrie felt. Vurder også å gjøre små variasjoner i skrivestilen din, som gjentatte fraser, tegnsetting eller vanlige skrivefeil, for å begrense automatisert identifisering.

Begrens det digitale fotavtrykket ditt for å beskytte mot AI-analyse

LLM-er kan identifisere personer ved å finne mønstre i artikler og skriving. Jo mindre offentlig innhold som er knyttet til din identitet, desto mindre materiale er det å jobbe med. Vurder hvor mye personlige detaljer du avslører når du poster – ikke bare fakta, men vaner, meninger og tilbakevendende temaer som gjør at du skiller deg ut. Sørg for å velge bort AI-opplæring på så mange plattformer som mulig.

Bruk ende-til-ende-krypterte tjenester for å beskytte mot datainnsamling

Kryptering beskytter ikke bare data fra hackere, men begrenser hva som kan leses i utgangspunktet. En e-postleverandør som ikke kan lese meldingene dine, kan ikke skanne dem for annonsering, bruke dem til AI-trening eller dele innsikt med meglere.

Bruk ende-til-ende-kryptert e-post til privat kommunikasjon, sikker skylagring for trygg lagring og deling av filer, og en VPN(nytt vindu) uten loggføring for å kryptere nettaktiviteten din — alt dette reduserer mengden data du eksponerer ufrivillig.

Velg bort datainnsamling for å beskytte deg mot datameglere

Det er mulig å fjerne personopplysninger fra internett, selv fra datameglere, men det krever utholdenhet. Det vil ikke stoppe fremtidig datainnsamling, men det kan gi deg en ny start. Fremover vil det å minimere ditt digitale fotavtrykk og kryptere dataene dine der det er mulig bidra til å begrense hva som blir samlet inn.

Et diagram som forklarer hvordan du gjør deg selv mer anonym

Anonymisering er ingen personverngaranti

Det viktigste poenget er at «anonymisert» ikke alltid betyr trygt, permanent eller umulig å spore. Jo mindre personlig informasjon du deler, jo mindre konsekvent du er på tvers av plattformer, og jo mer kontroll du beholder over kontoene og aliasene dine, desto færre signaler er det som kan kobles tilbake til deg.

Dataene dine kan være anonymisert på papiret, men din sterkeste beskyttelse starter før det punktet: med hva og hvor du velger å dele, og hvor lett det kan kobles til resten av ditt digitale liv. Det betyr også å være bevisst på tjenestene du bruker hver dag, og selskapene som eier dem.

Proton-apper er med åpen kildekode, reklamefrie og utviklet for å unngå sporing og AI-trening på dine data. Med ende-til-ende-kryptering, nulltilgangskryptering og en forretningsmodell som utelukkende finansieres av vårt fellesskap av betalende abonnenter, trenger vi ikke å utnytte dataene dine, vi kan ikke lese det meste av dem – og vi vil heller ikke det.

Anonymisering forklart: Hvis dataene dine er anonyme, hvorfor kan annonsører fortsatt målrette deg?