Când companiile spun că datele dvs. cu caracter personal sunt anonimizate, pare că identitatea dvs. online este eliminată definitiv. Informațiile dvs. devin zgomot într-un set de date, astfel încât să puteți lăsa garda jos. Ei bine, nu chiar.

Datele anonimizate sunt date de pe care au fost eliminate cele mai evidente elemente de identificare personală, cum ar fi numele sau adresa de domiciliu. Însă, într-o lume plină de baze de date interconectate, este nevoie de doar câteva detalii aparent fără legătură pentru a urmări pe cineva.

Cercetările(fereastră nouă) au arătat că sunt necesare doar 15 puncte de date pentru a identifica 99,98% dintre persoanele dintr-un set de date de ordinul milioanelor. Și cu IA care conectează punctele în cadrul activității dvs. online, decalajul dintre „anonim” și „identificat” se micșorează.

Să aruncăm o privire la ce înseamnă de fapt anonimizarea datelor și ce puteți face pentru a vă proteja mai bine confidențialitatea.

Ce este anonimizarea datelor?

Anonimizarea datelor este procesul ireversibil de eliminare a oricărui element de identificare personală din punctele de date, cum ar fi numele dvs., adresa de e-mail, numărul de contact sau data nașterii. Scopul este de a întrerupe cât mai mult posibil legătura dintre o înregistrare și o persoană.

Cu toate acestea, după anonimizare, datele includ încă indicii indirecte, cum ar fi locația dvs. generală, obiceiurile de navigare și grupa de vârstă. Individual, aceste detalii sunt destul de inofensive, dar când sunt luate împreună, formează un tipar care indică spre dvs.

O diagramă care explică modul în care funcționează anonimizarea

Unele tipuri de date, cum ar fi cele biometrice, sunt deosebit de greu (sau chiar imposibil) de anonimizat cu adevărat. Puteți crea un nume de utilizator sigur, dar nu puteți schimba fața, amprenta sau modelul irisului unei persoane.

Atunci când datele sunt cu adevărat anonimizate, acestea nu mai sunt considerate cu caracter personal în temeiul legilor privind confidențialitatea, cum ar fi GDPR. Asta înseamnă că firmele le pot utiliza fără cerințele de consimțământ și protecție care se aplică datelor cu caracter personal.

Dar Considerentul 26 al GDPR(fereastră nouă) stabilește un standard ridicat: datele nu mai trebuie să identifice o persoană, chiar și atunci când se iau în considerare alte informații și metode care ar putea fi utilizate în mod rezonabil pentru a o reidentifica. Așadar, eliminarea numelor sau a adreselor de e-mail nu este suficientă dacă datele rămase încă indică spre cineva.

Anonimizare vs. pseudonimizare

În timp ce anonimizarea elimină definitiv informațiile identificabile pentru a se asigura că nu pot fi urmărite până la un individ, pseudonimizarea înlocuiește acele date cu o etichetă, un token sau un cod. Identitatea originală este stocată separat într-o cheie securizată sau într-un tabel de căutare, dar cu accesul corespunzător, acea etichetă poate fi legată înapoi de o persoană reală.

Un exemplu de pseudonimizare este cercetarea medicală, unde numele pacienților sunt înlocuite cu coduri. Cercetătorii pot urmări în continuare datele, dar numai personalul autorizat care deține cheia le poate reconecta la persoana respectivă.

Această diferență este simplă, dar importantă. Pseudonimizarea este considerată date cu caracter personal în temeiul reglementărilor precum GDPR, deoarece poate fi încă legată de cineva. Datele anonimizate, în schimb, nu fac obiectul acelor obligații numai atunci când reidentificarea nu mai este posibilă în mod rezonabil.

Tehnici comune de anonimizare a datelor

Companiile folosesc diferite metode de anonimizare în funcție de modul în care planifică să utilizeze datele. Iată câteva dintre cele mai comune:

Mascare datelor înlocuiește informațiile cu date false, cum ar fi schimbarea unui număr de telefon cu unul fictiv.

Generalizarea face datele mai puțin specifice, cum ar fi utilizarea intervalelor de vârstă în locul unei vârste exacte.

Permutarea datelor amestecă informațiile între înregistrări, astfel încât acestea să nu mai corespundă persoanei originale.

Perturbarea datelor ocultă detaliile individuale, păstrând în același timp tendințele datelor, cum ar fi modificarea datelor prin rotunjirea numerelor.

Datele sintetice se bazează pe date artificiale care imită modelele setului de date original fără a utiliza direct înregistrări reale.

Aceste tehnici pot reduce riscurile de confidențialitate, dar eficacitatea lor depinde în întregime de cât de bine sunt aplicate. Chiar și atunci, este posibil ca acestea să nu elimine fiecare indiciu care ar putea identifica pe cineva.

Cum folosesc companiile datele anonimizate

Datele anonimizate sunt valoroase deoarece companiile le pot folosi legal oricum doresc, fără consimțământul dvs. Utilizările comune includ:

Analiză și dezvoltare: companiile studiază comportamentul utilizatorilor pentru a îmbunătăți produsele, pentru a măsura tendințele și pentru a ghida deciziile de afaceri.

Publicitate: modelele de navigare și de cumpărare pot fi utilizate pentru a construi segmente de audiență pentru reclame direcționate, chiar și fără a avea numele dvs. atașat.

Brokeri de date: unele date sunt agregate, împachetate și revândute de brokeri de date. Aceste companii combină informații din aplicații, site-uri web, înregistrări publice, date de credit și multe altele pentru a construi profiluri detaliate care sunt vândute oricui le dorește, cu puțină supraveghere legală.

Instruirea modelelor de IA: seturi mari de date sunt adesea folosite pentru a instrui sistemele de IA, inclusiv date extrase din activitatea utilizatorilor, seturi de date achiziționate și surse publice sau colectate automat prin scraping.

Cercetare medicală: în unele țări(fereastră nouă), datele medicale anonimizate pot fi vândute companiilor farmaceutice sau partajate cu cercetătorii.

Datele anonimizate pot fi folosite în scopuri bune, cum ar fi îmbunătățirea serviciilor sau susținerea cercetării. Problema este că acest lucru creează un stimulent comercial puternic pentru brokerii de date și agenții de publicitate pentru a colecta, combina, partaja, reîmpacheta și vinde informații despre oameni, adesea în moduri pe care aceștia nu le înțeleg pe deplin sau pentru care nu își dau un consimțământ real. Pentru persoanele care decid ulterior că vor să se retragă, eliminarea datelor lor nu este simplă.

Autoritatea de reglementare a confidențialității din California a creat sistemul DROP(fereastră nouă), deoarece ștergerea datelor de la sute de brokeri de date a fost istoric dificil de gestionat pentru persoanele fizice. Acest lucru este mult mai dificil în cazul datelor de instruire pentru IA, deoarece, odată ce datele au influențat un model instruit, eliminarea lor poate necesita tehnici de dezvățare automată (machine unlearning)(fereastră nouă), pentru care companiile de IA nu au niciun apetit(fereastră nouă).

Reidentificarea datelor sau de ce datele anonimizate nu sunt cu adevărat anonime

Dacă cineva vă spune că caută un bărbat de aproximativ 30 de ani care conduce o mașină albă și locuiește în cartierul dvs., s-ar putea să aveți deja o idee bună despre cine este vorba. Niciunul dintre acele detalii nu poate identifica separat persoana, dar împreună ajută la restrângerea posibilităților prin excluderea tuturor celorlalți. Datele anonimizate funcționează în același mod: chiar dacă numele și detaliile de contact sunt eliminate, informațiile rămase pot deveni totuși revelatoare atunci când sunt combinate suficiente detalii.

Când aceste modele sunt comparate cu alte surse, cum ar fi rețelele sociale sau înregistrările publice, devine posibilă conectarea datelor presupus anonime cu o persoană. Aceasta este cunoscută sub numele de reidentificare și este adesea mai ușoară decât v-ați aștepta.

O diagramă care explică modul în care funcționează reidentificarea

Cercetătoarea Latanya Sweeney a achiziționat un set de date spitalicești(fereastră nouă) pentru 50 USD, care conținea identificatori indirecți, cum ar fi date demografice, diagnostice și detalii de facturare. Detaliile revelatoare, cum ar fi numele, nu au fost incluse. Prin compararea acestor date cu știrile locale despre spitalizări, ea a reușit să coreleze 43% dintre pacienți cu înregistrările lor, inclusiv istoricul medical complet al unui pacient implicat într-un accident de motocicletă raportat.

Inteligența artificială face deanonimizarea mai rapidă și mai ieftină

Dacă singura protecție împotriva reidentificării din datele anonime este timpul, răbdarea și compararea manuală a datelor, acea protecție incidentală se erodează odată cu IA.

Cercetările arată că modelele de limbaj mari (LLM) pot analiza postările cuiva pe mai multe platforme, pot face referințe încrucișate cu informațiile publice și pot identifica utilizatorii anonimi cu o precizie incredibilă. Într-un studiu privind deanonimizarea la scară largă(fereastră nouă), metodele bazate pe LLM au identificat până la 68% dintre persoane și, atunci când au realizat o potrivire, au avut dreptate în 90% din cazuri.

Sweeney a trebuit să plătească doar 50 USD pentru un set de date cu sute de mii de înregistrări. Astăzi, LLM-urile pot deanonimiza profiluri pentru 1-4 USD fiecare și pot face treaba automat. De asemenea, acestea nu au nevoie de seturi de date curate și structurate și pot observa modele în postările și comentariile obișnuite.

După cum spune unul dintre cercetători:

„Întrebați-vă: ar putea o echipă de investigatori inteligenți să își dea seama cine sunteți pe baza postărilor dvs.? Dacă răspunsul este da, agenții LLM pot face probabil același lucru, iar costul pentru a face acest lucru este în continuă scădere.”

Protejați-vă confidențialitatea prin minimizarea și criptarea datelor

Anonimizarea datelor nu este suficientă, deoarece reidentificarea poate avea loc atunci când se fac conexiuni între informații. Cel mai bun mod de a vă proteja este să vă minimizați amprenta digitală, făcând reidentificarea dvs. mai dificilă.

Nu trebuie să dispăreți complet din mediul digital, dar ar trebui să fiți mai ponderat cu privire la ceea ce partajați și modul în care o faceți. Iată câteva sfaturi practice:

Compartimentați-vă identitatea pentru a vă proteja împotriva corelării datelor

Când folosiți aceeași adresă de e-mail și același nume de utilizator pe toate platformele, detaliile dvs. sunt ușor de corelat. Este simplu să generați nume de utilizator diferite pentru conturi diferite, însă utilizarea unor adrese de e-mail unice pentru orice poate fi un coșmar, dacă nu folosiți aliasuri de e-mail.

Aliasurile creează adrese separate care redirecționează mesajele către inboxul dvs. principal, fără a vă expune adresa de e-mail reală și identitatea. Dacă utilizați un alias de e-mail unic pentru fiecare serviciu, puteți vedea de unde provine o divulgare sau o vânzare de date.

De exemplu, dacă creați un alias doar pentru Compania A și ulterior primiți e-mailuri la acel alias de la Compania B, știți că fie Compania A a partajat, vândut, divulgat sau a pierdut controlul asupra adresei dvs. Puteți apoi să dezactivați acel alias fără a vă afecta inboxul principal sau celelalte aliasuri.

Fiți imprevizibil pentru a vă proteja împotriva tiparelor identificabile

Cu cât detaliile dvs. sunt mai consecvente pe platforme, cu atât este mai ușor să vi se creeze un profil unic. Acolo unde este posibil, evitați să oferiți mai multe informații decât este necesar.

De exemplu, utilizați o locație generală în loc de orașul dvs. exact, rotunjiți-vă vârsta și omiteți câmpurile opționale. De asemenea, luați în considerare mici variații în stilul dvs. de scriere, cum ar fi fraze repetate, punctuația sau greșeli de tipar frecvente, pentru a limita identificarea automatizată.

Limitați-vă amprenta digitală pentru a vă proteja împotriva analizei AI

LLM-urile pot identifica persoanele găsind tipare în postări și în stilul de scriere. Cu cât există mai puțin conținut public legat de identitatea dvs., cu atât este mai puțin material de prelucrat. Gândiți-vă cât de multe detalii personale dezvăluiți atunci când postați — nu doar fapte, ci și obiceiuri, opinii și subiecte recurente care vă scot în evidență. Asigurați-vă că folosiți opțiunea de retragere din antrenarea AI pe cât mai multe platforme posibil.

Utilizați servicii criptate de la un capăt la altul pentru a vă proteja împotriva colectării datelor

Criptarea nu doar că protejează datele de hackeri, ci limitează ceea ce poate fi citit de la bun început. Un furnizor de e-mail care nu vă poate citi mesajele nu le poate scana pentru publicitate, nu le poate folosi pentru antrenarea AI și nu poate partaja informații cu brokerii de date.

Folosiți un e-mail criptat de la un capăt la altul pentru comunicări private, stocare securizată în cloud pentru a stoca și partaja fișiere în siguranță și un VPN(fereastră nouă) fără jurnal pentru a vă cripta activitatea de navigare — toate acestea reduc cantitatea de date pe care o expuneți fără voia dvs.

Retrageți-vă acordul pentru colectarea datelor pentru a vă proteja împotriva brokerilor

Este posibil să eliminați informațiile personale de pe internet, chiar și de la brokerii de date, dar acest lucru necesită perseverență. Nu va opri colectarea viitoare de date, dar vă poate oferi un nou început. Pe viitor, minimizarea amprentei dvs. digitale și criptarea datelor acolo unde este posibil va ajuta la limitarea a ceea ce este colectat.

O diagramă care explică cum să deveniți mai anonim

Anonimizarea nu este o garanție a confidențialității

Concluzia principală este că „anonimizat” nu înseamnă întotdeauna sigur, permanent sau imposibil de urmărit. Cu cât partajați mai puține informații personale, cu atât sunteți mai puțin consecvent pe platforme și cu cât păstrați mai mult control asupra conturilor și aliasurilor dvs., cu atât există mai puține semnale care să poată fi asociate cu dvs.

Datele dvs. pot fi anonimizate pe hârtie, dar cea mai puternică protecție începe înainte de acel punct: prin ceea ce alegeți să partajați și unde, și prin cât de ușor pot fi conectate informațiile cu restul vieții dvs. digitale. Asta înseamnă, de asemenea, să fiți selectiv cu privire la serviciile pe care le utilizați zilnic și companiile care le dețin.

Aplicațiile Proton au cod sursă public, nu conțin reclame și sunt concepute pentru a evita urmărirea și antrenarea AI pe oricare dintre datele dvs. Cu criptare de la un capăt la altul, criptare cu acces zero și un model de afaceri finanțat exclusiv de comunitatea noastră de abonați plătitori, nu trebuie să vă exploatăm datele, nu le putem citi pe cele mai multe dintre ele — și nici nu dorim acest lucru.