När företag säger att dina personuppgifter är anonymiserade låter det som att din identitet online raderas för gott. Din information blir brus i en datamängd, så du kan sänka garden. Men så är det inte riktigt.

Anonymiserade data är data där de mest uppenbara personliga identifierarna har tagits bort, såsom namn eller hemadress. Men i en värld full av sammankopplade databaser krävs det bara en handfull till synes orelaterade detaljer för att spåra någon.

Forskning(nytt fönster) har visat att det bara behövs 15 datapunkter för att identifiera 99,98 % av människorna i en datamängd med miljontals poster. Och med AI som kopplar samman punkterna i din aktivitet online minskar gapet mellan ”anonym” och ”identifierad”.

Låt oss ta en titt på vad dataanonymisering faktiskt betyder och vad du kan göra för att skydda din integritet bättre.

Vad är dataanonymisering?

Dataanonymisering är den oåterkalleliga processen att ta bort allt personligt identifierbart från datapunkter, såsom ditt namn, din e-postadress, ditt kontaktnummer eller din födelsedag. Målet är att bryta länken mellan en post och en person så mycket som möjligt.

Efter anonymisering innehåller data dock fortfarande indirekta ledtrådar, såsom din generella plats, surfvanor och åldersspann. Var för sig är dessa detaljer ganska oförargliga, men tillsammans bildar de ett mönster som pekar ut dig.

Ett diagram som förklarar hur anonymisering fungerar

Vissa typer av data, som biometriska data, är särskilt svåra (eller till och med omöjliga) att verkligen anonymisera. Du kan skapa ett säkert användarnamn men du kan inte ändra en persons ansikte, fingeravtryck eller irismönster.

När data är verkligt anonymiserade betraktas de inte längre som personuppgifter enligt integritetslagar som GDPR. Det innebär att företag får använda dem utan de krav på samtycke och skydd som tillämpas för personuppgifter.

Men skäl 26 i GDPR(nytt fönster) sätter ribban högt: data får inte längre identifiera en person, inte ens när man väger in annan information och andra metoder som rimligen kan användas för att återidentifiera dem. Att ta bort namn eller e-postadresser räcker alltså inte om återstående data fortfarande pekar tillbaka på någon.

Anonymisering kontra pseudonymisering

Medan anonymisering permanent tar bort identifierbar information för att säkerställa att den inte kan spåras tillbaka till en individ, ersätter pseudonymisering dessa data med en etikett, token eller kod. Den ursprungliga identiteten lagras separat i en säker nyckel eller uppslagstabell, men med rätt behörighet kan man få åtkomst till etiketten och länka den tillbaka till en verklig person.

Ett exempel på pseudonymisering är medicinsk forskning, där patientnamn ersätts med koder. Forskare kan fortfarande spåra data, men endast auktoriserad personal med nyckeln kan ansluta dem till individen igen.

Denna skillnad är enkel men viktig. Pseudonymisering betraktas som personuppgifter under föreskrifter som GDPR eftersom de fortfarande kan länkas tillbaka till någon. Anonymiserade data hamnar däremot utanför dessa skyldigheter först när återidentifiering inte längre är rimligen möjlig.

Vanliga tekniker för dataanonymisering

Företag använder olika anonymiseringsmetoder beroende på vilket paket de planerar att använda för datan. Här är några vanliga:

Datamaskning ersätter information med falska uppgifter, som att byta ut ett telefonnummer mot ett fiktivt.

Generalisering gör data mindre specifik, som att använda åldersintervall snarare än en exakt ålder.

Databyten kastar om information mellan poster så att de inte längre matchar den ursprungliga personen.

Dataperturbation döljer enskilda detaljer men bevarar datatrender, som att ändra data genom att avrunda siffror.

Syntetisk data förlitar sig på artificiell data som efterliknar mönstren i den ursprungliga datamängden utan att direkt använda riktiga poster.

Dessa tekniker kan minska integritetsriskerna, men deras effektivitet beror helt på hur väl de tillämpas. Inte ens då kan man vara säker på att de tar bort varje ledtråd som kan identifiera någon.

Hur företag använder anonymiserad data

Anonymiserad data är värdefull eftersom företag lagligt kan använda den som de vill, utan ditt samtycke. Vanliga användningsområden inkluderar:

Analys och utveckling: Företag studerar användarbeteende för att förbättra produkter, mäta trender och vägleda affärsbeslut.

Annonsering: Webbläsning och köpmönster kan användas för att bygga målgruppssegment för riktade annonser, även utan att ditt namn är kopplat till dem.

Datamäklare: Viss data sammanställs, paketeras och säljs vidare av datamäklare. Dessa företag kombinerar information från appar, webbplatser, offentliga register, kreditdata och mer för att bygga detaljerade profiler som säljs till vem som helst som vill ha dem, med liten juridisk tillsyn.

Träning av AI-modeller: Stora datamängder används ofta för att träna AI-system, inklusive data hämtad från användaraktivitet, köpta datamängder och offentliga eller skrapade källor.

Medicinsk forskning: I vissa länder(nytt fönster) kan anonymiserad medicinsk data säljas till läkemedelsföretag eller delas med forskare.

Anonymiserad data kan användas för goda ändamål, som att förbättra tjänster eller stödja forskning. Problemet är att det skapar ett starkt kommersiellt incitament för datamäklare och annonsörer att samla in, kombinera, dela, paketera om och sälja information om människor, ofta på sätt som de inte helt förstår eller meningsfullt har samtyckt till. För personer som senare bestämmer sig för att de vill ha ut sin data är det inte enkelt att ta bort den.

Kaliforniens integritetstillsynsmyndighet skapade DROP(nytt fönster)-systemet eftersom det historiskt sett har varit svårt för individer att hantera att ta bort data från hundratals datamäklare. Detta är mycket svårare med AI-träningsdata, för när väl data har påverkat en tränad modell kan det krävas tekniker för maskinell avlärning(nytt fönster) för att ta bort den, något som AI-företag inte har något intresse av(nytt fönster).

Återidentifiering av data, eller varför anonymiserad data inte är genuint anonym

Om någon berättar för dig att de letar efter en man i 30-årsåldern som kör en vit bil och bor i ditt grannskap, kanske du redan har en ganska bra aning om vem de menar. Ingen av de detaljerna kan var för sig identifiera personen, men tillsammans hjälper de till att begränsa möjligheterna genom att utesluta alla andra. Anonymiserad data fungerar på samma sätt: Även om namn och kontaktuppgifter tas bort kan den återstående informationen fortfarande bli avslöjande när tillräckligt många detaljer kombineras.

När dessa mönster korsrefereras med andra källor, som sociala medier eller offentliga register, blir det möjligt att ansluta förbundet anonym data till en person. Detta kallas för återidentifiering, och det är ofta enklare än du tror.

Ett diagram som förklarar hur återidentifiering fungerar

Forskaren Latanya Sweeney köpte en sjukhusdatamängd(nytt fönster) för 50 dollar som innehöll indirekta identifierare, såsom demografi, diagnoser och faktureringsdetaljer. Avslöjande detaljer som namn var inte inkluderade. Genom att korsreferera dessa data med lokala nyhetsrapporter om sjukhusvistelser kunde hon matcha 43 % av patienterna till deras poster, inklusive hela sjukdomshistoriken för en patient som varit involverad i en rapporterad motorcykelolycka.

AI gör avanonymisering snabbare och billigare

Om det enda skyddet mot återidentifiering från anonym data är tid, tålamod och manuell korsreferens, håller det tillfälliga skyddet på att vittra sönder med AI.

Forskning visar att stora språkmodeller (LLM:er) kan analysera någons inlägg på olika plattformar, korsreferera offentlig information och identifiera anonyma användare med otrolig precision. I en studie om storskalig avanonymisering(nytt fönster) identifierade LLM-baserade metoder upp till 68 % av personerna, och när de fick en matchning hade de rätt i 90 % av fallen.

Sweeney behövde bara betala 50 dollar för en datamängd med hundratusentals poster. Idag kan LLM:er avanonymisera profiler för 1–4 dollar styck och göra arbetet automatiskt. De behöver inte heller rena, strukturerade datamängder och kan upptäcka mönster i vanliga inlägg och kommentarer.

Som en av forskarna uttrycker det:

”Fråga dig själv: Skulle ett team av smarta utredare kunna lista ut vem du är utifrån dina inlägg? Om ja, kan LLM-agenter troligen göra detsamma, och kostnaden för att göra det minskar stadigt.”

Skydda din integritet genom att minimera och kryptera data

Anonymisering av data räcker inte, eftersom identifiering kan ske när punkterna ansluts. Det bästa sättet att skydda dig själv är att minimera ditt digitala fotavtryck, vilket gör dig svårare att identifiera på nytt.

Du behöver inte leva helt utanför nätet, men du bör vara mer medveten om vad och hur du delar. Här är några praktiska tips:

Dela upp din identitet för att skydda mot korsreferenser

När du använder samma e-post och användarnamn på alla plattformar är det enkelt att sammanställa dina detaljer. Det är enkelt att generera olika användarnamn för olika konton, men att använda unika e-postadresser till allt kan vara en mardröm om du inte använder e-postalias.

Alias skapar separata adresser som vidarebefordrar meddelanden till din huvudinkorg utan att avslöja din riktiga e-postadress och identitet. Om du använder ett unikt e-postalias för varje tjänst kan du se var en läcka eller försäljning kom ifrån.

Om du till exempel skapar ett alias endast för företag A och senare får e-post till det aliaset från företag B, vet du att företag A antingen har delat, sålt, läckt eller tappat kontrollen över din adress. Du kan då inaktivera det aliaset utan att det påverkar din huvudinkorg eller dina andra alias.

Var inkonsekvent för att skydda mot identifierbara mönster

Ju mer konsekventa dina detaljer är på olika plattformar, desto lättare är det att bygga en unik profil kring dig. Undvik att ange mer information än nödvändigt där det är möjligt.

Använd till exempel en generell plats istället för din exakta stad, runda av din ålder och hoppa över valfria fält. Överväg också att göra små variationer i din skrivstil, såsom upprepade fraser, provat punktuering eller vanliga felskrivningar, för att begränsa automatiserad identifiering.

Begränsa ditt digitala fotavtryck för att skydda mot AI-analys

LLM-modeller kan identifiera personer genom att hitta mönster i inlägg och texter. Ju mindre offentligt innehåll som är kopplat till din identitet, desto mindre material finns det att arbeta med. Fundera på hur mycket personliga detaljer du avslöjar när du gör inlägg — inte bara fakta, utan även vanor, åsikter och återkommande ämnen som gör att du sticker ut. Se till att välja bort AI-träning på så många plattformar som möjligt.

Använd end-to-end-krypterade tjänster för att skydda mot datainsamling

Kryptering skyddar inte bara data från hackare utan begränsar vad som kan läsas från första början. En e-postleverantör som inte kan läsa dina meddelanden kan inte skanna dem för reklam, använda dem för AI-träning eller dela insikter med dataförmedlare.

Använd end-to-end-krypterad e-post för privat kommunikation, säkert molnbaserat lagringsutrymme för att säkert lagra och dela filer, och en VPN(nytt fönster) utan loggar för att kryptera din webbaktivitet — allt detta minskar mängden data du exponerar ofrivilligt.

Välj bort datainsamling för att skydda dig mot dataförmedlare

Det är möjligt att ta bort personlig information från internet, även från dataförmedlare, men det kräver uthållighet. Det stoppar inte framtida datainsamling, men det kan ge dig en nystart. Framöver kommer minimering av ditt digitala fotavtryck och kryptering av dina data där det är möjligt att hjälpa till att begränsa vad som samlas in.

Ett diagram som förklarar hur du gör dig själv mer anonym

Anonymisering är ingen integritetsgaranti

Den viktigaste lärdomen är att ”anonymiserad” inte alltid betyder säker, permanent eller omöjlig att spåra. Ju mindre personlig information du delar, desto mindre konsekvent du är på olika plattformar och ju mer kontroll du behåller över dina konton och alias, desto färre signaler finns det som kan länkas tillbaka till dig.

Dina data kan vara anonymiserade på pappret, men ditt starkaste skydd börjar före den tidpunkten: med vad och var du väljer att dela, och hur enkelt det kan anslutas till resten av ditt digitala liv. Det innebär också att vara medveten om de tjänster du använder varje dag och de företag som äger dem.

Proton-appar har öppen källkod, är annonsfria och utformade för att undvika spårning och AI-träning på dina data. Med end-to-end-kryptering, nollåtkomstkryptering och en affärsmodell som uteslutande finansieras av vår gemenskap av betalande prenumeranter, behöver vi inte utnyttja dina data, vi kan inte läsa det mesta av dem — och vi vill inte heller göra det.