Quando le aziende dicono che i tuoi dati personali sono anonimizzati, sembra che la tua identità online sia stata cancellata per sempre. Le tue informazioni diventano rumore in un set di dati, quindi puoi abbassare la guardia. Beh, non esattamente.

I dati anonimizzati sono dati a cui sono stati rimossi gli identificatori personali più ovvi, come il nome o l’indirizzo di casa. Ma in un mondo pieno di database interconnessi, bastano pochi dettagli apparentemente non correlati per rintracciare qualcuno.

Le ricerche(nuova finestra) hanno mostrato che sono necessari solo 15 punti dati per identificare il 99,98% delle persone in un dataset di milioni di individui. E con l’IA che connette i vari punti della tua attività online, il divario tra “anonimo” e “identificato” si sta riducendo.

Diamo un’occhiata a cosa significa effettivamente l’anonimizzazione dei dati e cosa puoi fare per proteggere meglio la tua privacy.

Che cos’è l’anonimizzazione dei dati?

L’anonimizzazione dei dati è il processo irreversibile di rimozione di qualsiasi elemento di identificazione personale dai punti dati, come il nome, l’indirizzo email, il numero di contatto o la data di nascita. L’obiettivo è recidere il più possibile il legame tra un record e una persona.

Tuttavia, dopo l’anonimizzazione, i dati includono ancora indizi indiretti, come la tua posizione generale, le abitudini di navigazione e la fascia d’età. Singolarmente, questi dettagli sono piuttosto innocui, ma presi tutti insieme formano un modello che punta a te.

Un diagramma che spiega come funziona l'anonimizzazione

Alcuni tipi di dati, come quelli biometrici, sono particolarmente difficili (o addirittura impossibili) da anonimizzare veramente. Puoi creare un nome utente sicuro, ma non puoi cambiare il volto, l’impronta digitale o il pattern dell’iride di una persona.

Quando i dati sono veramente anonimizzati, non sono più considerati personali ai sensi delle leggi sulla privacy come il GDPR. Ciò significa che le aziende possono utilizzarli senza i requisiti di consenso e protezione che si applicano ai dati personali.

Ma il Considerando 26 del GDPR(nuova finestra) stabilisce un livello elevato: i dati non devono più identificare una persona, anche considerando altre informazioni e metodi che potrebbero ragionevolmente essere utilizzati per reidentificarla. Pertanto, rimuovere nomi o indirizzi email non è sufficiente se i dati rimanenti rimandano comunque a qualcuno.

Anonimizzazione vs pseudonimizzazione

Mentre l’anonimizzazione rimuove permanentemente le informazioni identificabili per garantire che non possano essere ricondotte a un individuo, la pseudonimizzazione sostituisce tali dati con un’etichetta, un token o un codice. L’identità originale è archiviata separatamente in una chiave sicura o in una tabella di ricerca ma, con il giusto accesso, quell’etichetta può essere collegata di nuovo a una persona reale.

Un esempio di pseudonimizzazione è la ricerca medica, in cui i nomi dei pazienti sono sostituiti da codici. I ricercatori possono comunque tracciare i dati, ma solo il personale autorizzato con la chiave può riconnetterli all’individuo.

Questa differenza è semplice ma importante. La pseudonimizzazione è considerata dato personale ai sensi di normative come il GDPR perché può ancora essere collegata a qualcuno. I dati anonimizzati, al contrario, esulano da tali obblighi solo quando la reidentificazione non è più ragionevolmente possibile.

Tecniche comuni di anonimizzazione dei dati

Le aziende utilizzano diversi metodi di anonimizzazione a seconda di come pianificano di usare i dati. Ecco alcuni dei più comuni:

Il mascheramento dei dati sostituisce le informazioni con dati fittizi, come scambiare un numero di telefono con uno inventato.

La generalizzazione rende i dati meno specifici, come l’uso di fasce d’età anziché un’età esatta.

Lo scambio di dati rimescola le informazioni tra i record in modo che non corrispondano più alla persona originale.

La perturbazione dei dati oscura i singoli dettagli preservando le tendenze dei dati, ad esempio modificando i dati arrotondando i numeri.

I dati sintetici si basano su dati artificiali che imitano i modelli del set di dati originale senza utilizzare direttamente record reali.

Queste tecniche possono ridurre i rischi per la privacy, ma la loro efficacia dipende interamente da quanto bene vengono applicate. Anche in quel caso, potrebbero non rimuovere ogni indizio che potrebbe identificare qualcuno.

Come le aziende utilizzano i dati anonimizzati

I dati anonimizzati sono preziosi perché le aziende possono utilizzarli legalmente come vogliono, senza il tuo consenso. Gli usi comuni includono:

Analisi e sviluppo: le aziende studiano il comportamento degli utenti per migliorare i prodotti, misurare le tendenze e guidare le decisioni aziendali.

Pubblicità: i modelli di navigazione e di acquisto possono essere utilizzati per creare segmenti di pubblico per annunci mirati, anche senza il tuo nome collegato.

Broker di dati: alcuni dati vengono aggregati, confezionati e rivenduti dai broker di dati. Queste aziende combinano informazioni provenienti da app, siti web, registri pubblici, dati creditizi e altro ancora per creare profili dettagliati che vengono venduti a chiunque li desideri, con scarso controllo legale.

Addestramento di modelli di IA: set di dati di grandi dimensioni sono spesso utilizzati per addestrare sistemi di IA, inclusi dati tratti dall’attività degli utenti, set di dati acquistati e fonti pubbliche o recuperate tramite scraping.

Ricerca medica: in alcuni paesi(nuova finestra), i dati medici anonimizzati possono essere venduti ad aziende farmaceutiche o condivisi con i ricercatori.

I dati anonimizzati possono essere usati a fin di bene, come per migliorare i servizi o supportare la ricerca. Il problema è che creano un forte incentivo commerciale per i broker di dati e gli inserzionisti a raccogliere, combinare, condividere, riconfezionare e vendere informazioni sulle persone, spesso in modi che queste non comprendono appieno o per i quali non forniscono un consenso significativo. Per le persone che in seguito decidono di volersi tirare fuori, rimuovere i propri dati non è semplice.

L’autorità di regolamentazione della privacy della California ha creato il sistema DROP(nuova finestra) perché eliminare i dati da centinaia di broker di dati è storicamente difficile da gestire per i singoli individui. Questo è molto più difficile con i dati di addestramento dell’IA, perché una volta che i dati hanno influenzato un modello addestrato, rimuoverli può richiedere tecniche di machine unlearning(nuova finestra) per le quali le aziende di IA non mostrano alcun interesse(nuova finestra).

Reidentificazione dei dati, o perché i dati anonimizzati non sono veramente anonimi

Se qualcuno ti dice che sta cercando un uomo sulla trentina che guida un’auto bianca e vive nel tuo quartiere, potresti già avere un’idea precisa di chi intenda. Nessuno di questi dettagli può identificare separatamente la persona, ma insieme aiutano a restringere le possibilità escludendo tutti gli altri. I dati anonimizzati funzionano allo stesso modo: anche se i nomi e i dettagli di contatto vengono rimossi, le informazioni rimanenti possono comunque diventare rivelatrici quando vengono combinati abbastanza dettagli.

Quando questi schemi vengono incrociati con altre fonti, come i social media o i registri pubblici, diventa possibile collegare dati presumibilmente anonimi a una persona. Questo processo è noto come reidentificazione ed è spesso più facile di quanto ti aspetti.

Un diagramma che spiega come funziona la reidentificazione

La ricercatrice Latanya Sweeney ha acquistato per 50 $ un set di dati ospedalieri(nuova finestra) che conteneva identificatori indiretti, come dati demografici, diagnosi e dettagli di fatturazione. Non erano inclusi dettagli rivelatori come i nomi. Incrociando questi dati con le notizie locali sui ricoveri, è riuscita a far corrispondere il 43% dei pazienti ai loro record, inclusa l’intera storia clinica di un paziente coinvolto in un incidente motociclistico segnalato.

L’IA sta rendendo la deanonimizzazione più veloce ed economica

Se l’unica protezione contro la reidentificazione dai dati anonimi sono il tempo, la pazienza e l’incrocio manuale dei dati, tale protezione accessoria si sta sgretolando con l’IA.

La ricerca mostra che i modelli linguistici di grandi dimensioni (LLM) possono analizzare i post di qualcuno su varie piattaforme, incrociare le informazioni pubbliche e identificare gli utenti anonimi con un’incredibile precisione. In uno studio sulla deanonimizzazione su larga scala(nuova finestra), i metodi basati su LLM hanno identificato fino al 68% delle persone e, quando trovavano una corrispondenza, questa era corretta il 90% delle volte.

Sweeney ha dovuto pagare solo 50 $ per un set di dati di centinaia di migliaia di record. Oggi, gli LLM possono deanonimizzare i profili per 1-4 $ ciascuno e svolgere il lavoro automaticamente. Inoltre non hanno bisogno di set di dati puliti e strutturati e possono individuare schemi nei normali post e commenti.

Come afferma uno dei ricercatori:

“Chiediti: un team di investigatori esperti potrebbe capire chi sei dai tuoi post? Se la risposta è sì, è probabile che gli agenti LLM possano fare lo stesso e il costo per farlo è in continua diminuzione.”

Proteggi la tua privacy minimizzando e crittografando i dati

Anonimizzare i dati non è sufficiente, poiché la reidentificazione può avvenire quando i punti vengono collegati. Il modo migliore per proteggerti è ridurre la tua impronta digitale, rendendoti più difficile da reidentificare.

Non devi per forza sparire dalla circolazione, ma dovresti essere più consapevole di cosa condividi e come. Ecco alcuni consigli pratici:

Compartimentalizza la tua identità per proteggerti dai riferimenti incrociati

Quando usi la stessa email e lo stesso nome utente su tutte le piattaforme, i tuoi dettagli sono facili da mettere insieme. È semplice generare nomi utente diversi per account diversi, ma usare indirizzi email univoci per tutto può essere un incubo a meno che tu non usi gli alias email.

Gli alias creano indirizzi separati che inoltrano i messaggi alla tua posta in arrivo principale senza esporre il tuo vero indirizzo email e la tua identità. Se usi un alias email unico per ogni servizio, puoi vedere da dove proviene una perdita o una vendita di dati.

Ad esempio, se crei un alias solo per l’Azienda A e in seguito ricevi email a quell’alias dall’Azienda B, saprai che l’Azienda A ha condiviso, venduto o perso il controllo del tuo indirizzo. Potrai quindi disattivare quell’alias senza influire sulla tua posta in arrivo principale o sugli altri alias.

Sii incoerente per proteggerti dai pattern identificabili

Più i tuoi dettagli sono coerenti tra le piattaforme, più è facile costruire un profilo unico su di te. Ove possibile, evita di fornire più informazioni del necessario.

Ad esempio, usa una posizione generica invece della tua città esatta, arrotonda l’età e ignora i campi facoltativi. Inoltre, valuta l’idea di apportare piccole variazioni al tuo stile di scrittura, come frasi ripetute, punteggiatura o refusi comuni, per limitare l’identificazione automatizzata.

Limita la tua impronta digitale per proteggerti dall’analisi dell’IA

Gli LLM possono identificare le persone trovando pattern nei post e nella scrittura. Meno contenuti pubblici sono legati alla tua identità, meno materiale c’è a disposizione. Rifletti su quanti dettagli personali riveli quando pubblichi un post: non solo fatti, ma abitudini, opinioni e argomenti ricorrenti che ti distinguono. Assicurati di disattivare l’addestramento dell’IA su quante più piattaforme possibile.

Usa servizi crittografati end-to-end per proteggerti dalla raccolta dei dati

La crittografia non serve solo a proteggere i dati dagli hacker, ma limita ciò che può essere letto a monte. Un provider di posta che non può leggere i tuoi messaggi non può scansionarli per scopi pubblicitari, usarli per l’addestramento dell’IA o condividerne i dati con i broker.

Usa un’ email crittografata end-to-end per le comunicazioni private, un’archiviazione cloud sicura per archiviare e condividere i file in sicurezza e una VPN(nuova finestra) senza log per crittografare la tua attività di navigazione: tutto questo riduce la quantità di dati che esponi involontariamente.

Disattiva la raccolta dei dati per proteggerti dai broker

È possibile rimuovere le informazioni personali da internet, persino dai data broker, ma ci vuole costanza. Non fermerà la raccolta futura, ma può darti un nuovo inizio. Da qui in avanti, ridurre la tua impronta digitale e crittografare i tuoi dati dove possibile aiuterà a limitare ciò che viene raccolto.

Un diagramma che spiega come renderti più anonimo

L’anonimizzazione non è una garanzia di privacy

Il punto centrale è che “anonimizzato” non significa sempre sicuro, permanente o impossibile da rintracciare. Meno informazioni personali condividi, meno sei coerente tra le piattaforme e più controllo mantieni sui tuoi account e alias, minori saranno i segnali che permettono di risalire a te.

I tuoi dati possono essere anonimizzati sulla carta, ma la tua protezione più forte inizia prima: con cosa e dove scegli di condividere, e con quanta facilità questo può essere collegato al resto della tua vita digitale. Ciò significa anche essere oculati riguardo ai servizi che usi ogni giorno e alle aziende che li possiedono.

Le app Proton sono open source, prive di pubblicità e progettate per evitare il tracciamento e l’addestramento dell’IA su qualsiasi tuo dato. Con la crittografia end-to-end, la crittografia a accesso zero e un modello di business finanziato esclusivamente dalla nostra comunità di abbonati paganti, non abbiamo bisogno di sfruttare i tuoi dati, non possiamo leggerne la maggior parte e non vogliamo farlo.