Anonymizace dat z vás neudělá anonymní osobu. Zde je důvod proč.

Když společnosti tvrdí, že jsou vaše osobní údaje anonymizovány, zní to, jako by byla vaše online identita nadobro vymazána. Vaše informace se stanou šumem v datovém souboru, takže můžete polevit v ostražitosti. Inu, ne tak docela.

Anonymizované údaje jsou údaje s odstraněnými nejzřejmějšími osobními identifikátory, jako je jméno nebo adresa bydliště. Ve světě plném propojených databází však stačí jen hrstka zdánlivě nesouvisejících detailů k vypátrání konkrétní osoby.

Výzkum(nové okno) ukázal, že k identifikaci 99,98 % lidí v souboru milionů dat je zapotřebí pouze 15 datových bodů. A díky AI propojující souvislosti napříč vaší online aktivitou se propast mezi „anonymním“ a „identifikovaným“ zmenšuje.

Pojďme se podívat na to, co anonymizace dat skutečně znamená a co můžete udělat pro lepší ochranu svého soukromí.

Co je to anonymizace dat?
Anonymizace vs. pseudonymizace
Běžné techniky anonymizace dat
Jak společnosti využívají anonymizované údaje
Reidentifikace dat aneb proč anonymizované údaje nejsou skutečně anonymní
AI činí deanonymizaci rychlejší a levnější
Chraňte své soukromí minimalizací a šifrováním dat
Anonymizace není zárukou soukromí

Co je to anonymizace dat?

Anonymizace dat je nevratný proces odstranění čehokoli osobně identifikovatelného z datových bodů, jako je vaše jméno, e-mailová adresa, kontaktní číslo nebo datum narození. Cílem je v maximální možné míře přerušit vazbu mezi záznamem a osobou.

I po anonymizaci však data stále obsahují nepřímá vodítka, jako je vaše obecná poloha, zvyky při prohlížení webu a věkové rozmezí. Jednotlivě jsou tyto detaily vcelku neškodné, ale vzaty dohromady tvoří vzorec, který ukazuje na vás.

Diagram vysvětlující, jak funguje anonymizace

Některé typy údajů, například biometrické, je obzvláště obtížné (nebo dokonce nemožné) skutečně anonymizovat. Můžete si vytvořit bezpečné uživatelské jméno, ale nemůžete změnit obličej, otisk prstu nebo vzor duhovky dané osoby.

Pokud jsou údaje skutečně anonymizovány, nepovažují se již za osobní údaje podle zákonů o ochraně soukromí, jako je GDPR. To znamená, že je společnosti mohou používat bez souhlasu a požadavků na ochranu, které se vztahují na osobní údaje.

Avšak bod odůvodnění 26 nařízení GDPR(nové okno) nastavuje laťku vysoko: údaje již nesmějí identifikovat osobu, a to ani při zohlednění jiných informací a metod, které by mohly být rozumně použity k její reidentifikaci. Odstranění jmen nebo e-mailových adres tedy nestačí, pokud zbývající údaje stále odkazují na konkrétní osobu.

Anonymizace vs. pseudonymizace

Zatímco anonymizace trvale odstraňuje identifikovatelné informace, aby zajistila, že je nelze zpětně vysledovat ke konkrétní osobě, pseudonymizace tyto údaje nahrazuje štítkem, tokenem nebo kódem. Původní identita je uložena odděleně v zabezpečeném klíči nebo vyhledávací tabulce, ale s příslušným přístupem lze tento štítek propojit zpět s reálnou osobou.

Příkladem pseudonymizace je lékařský výzkum, kde jsou jména pacientů nahrazena kódy. Výzkumníci mohou údaje stále sledovat, ale pouze oprávněný personál s klíčem je může znovu přiřadit k jednotlivci.

Tento rozdíl je jednoduchý, ale důležitý. Pseudonymizace je považována za osobní údaje podle předpisů, jako je GDPR, protože ji lze stále propojit s konkrétní osobou. Anonymizované údaje naproti tomu nespadají pod tyto povinnosti pouze tehdy, když reidentifikace již není rozumně možná.

Běžné techniky anonymizace dat

Společnosti využívají různé metody anonymizace v závislosti na tom, jakým způsobem plánují data využít. Zde jsou některé z běžných metod:

Maskování dat nahrazuje informace falešnými údaji, například záměnou telefonního čísla za fiktivní.

Generalizace snižuje specifičnost dat, například použitím věkového rozmezí namísto přesného věku.

Záměna dat promíchá informace napříč záznamy, takže již neodpovídají původní osobě.

Perturbace dat znepřehledňuje jednotlivé detaily při zachování datových trendů, například změnou dat zaokrouhlováním čísel.

Syntetická data spoléhají na umělá data, která napodobují vzorce původního souboru dat, aniž by přímo využívala skutečné záznamy.

Tyto techniky mohou snížit rizika ohrožení soukromí, ale jejich účinnost závisí výhradně na tom, jak dobře jsou použity. Ani tehdy však nemusí odstranit každé vodítko, které by mohlo někoho identifikovat.

Jak společnosti využívají anonymizovaná data

Anonymizovaná data jsou cenná, protože je společnosti mohou legálně používat libovolným způsobem bez Vašeho souhlasu. Běžné způsoby využití zahrnují:

Analýza a vývoj: Společnosti studují chování uživatelů za účelem zlepšování produktů, měření trendů a rozhodování v obchodních otázkách.

Reklama: Vzorce prohlížení a nákupů lze využít k vytváření segmentů publika pro cílené reklamy, a to i bez přiřazení Vašeho jména.

Zprostředkovatelé dat: Některá data jsou agregována, balena a dále prodávána zprostředkovateli dat. Tyto společnosti kombinují informace z aplikací, webů, veřejných záznamů, údajů o kreditech a dalších zdrojů a vytvářejí podrobné profily, které jsou prodávány komukoli, kdo o ně má zájem, a to s minimálním právním dohledem.

Trénování modelů AI: Rozsáhlé soubory dat se často používají k trénování systémů umělé inteligence, včetně dat získaných z aktivity uživatelů, zakoupených datových souborů a veřejných nebo vytěžených zdrojů.

Lékařský výzkum: V některých zemích(nové okno) mohou být anonymizovaná lékařská data prodávána farmaceutickým společnostem nebo sdílena s výzkumnými pracovníky.

Anonymizovaná data lze využít k dobrým účelům, jako je zlepšování služeb nebo podpora výzkumu. Problémem je, že vytvářejí silnou komerční motivaci pro zprostředkovatele dat a inzerenty ke shromažďování, kombinování, sdílení, přebalování a prodeji informací o lidech, často způsoby, kterým plně nerozumí nebo k nim nedali smysluplný souhlas. Pro lidi, kteří se později rozhodnou, že si to nepřejí, není odebrání jejich dat jednoduché.

Kalifornský úřad pro ochranu soukromí vytvořil systém DROP(nové okno), protože smazání dat u stovek zprostředkovatelů dat bylo pro jednotlivce v minulosti obtížné spravovat. U trénovacích dat pro AI je to mnohem složitější, protože jakmile data ovlivní natrénovaný model, jejich odebrání může vyžadovat techniky strojového odnaučování(nové okno), ke kterým společnosti vyvíjející AI nemají velkou ochotu(nové okno).

Reidentifikace dat neboli proč anonymizovaná data nejsou skutečně anonymní

Pokud Vám někdo řekne, že hledá muže ve věku kolem 30 let, který řídí bílé auto a žije ve Vašem sousedství, možná už máte dobrou představu o tom, koho tím myslí. Žádný z těchto detailů nemůže osobu identifikovat samostatně, ale společně pomáhají zúžit možnosti vyloučením všech ostatních. Anonymizovaná data fungují stejným způsobem: i když jsou jména a kontaktní údaje odebrány, zbývající informace mohou být stále vypovídající, pokud se zkombinuje dostatek detailů.

Když jsou tyto vzorce křížově porovnány s jinými zdroji, jako jsou sociální média nebo veřejné záznamy, je možné propojit údajně anonymní data s konkrétní osobou. To je známé jako reidentifikace a je to často snazší, než byste čekali.

Diagram vysvětlující, jak funguje reidentifikace

Výzkumnice Latanya Sweeney zakoupila za 50 dolarů nemocniční datový soubor(nové okno), který obsahoval nepřímé identifikátory, jako jsou demografické údaje, diagnózy a detaily o vyúčtování. Identifikující údaje, jako jsou jména, nebyly zahrnuty. Křížovým porovnáním těchto dat s místními zprávami o hospitalizacích se jí podařilo přiřadit 43 % pacientů k jejich záznamům, včetně kompletní anamnézy pacienta, který byl účastníkem medializované nehody na motocyklu.

AI zrychluje a zlevňuje deanonymizaci

Pokud je jedinou ochranou proti reidentifikaci z anonymních dat čas, trpělivost a manuální křížové porovnávání, tato náhodná ochrana s nástupem AI mizí.

Výzkumy ukazují, že velké jazykové modely (LLM) dokáží analyzovat příspěvky uživatelů napříč platformami, křížově porovnávat veřejné informace a identifikovat anonymní uživatele s neuvěřitelnou přesností. V jedné studii zaměřené na plošnou deanonymizaci(nové okno) identifikovaly metody založené na LLM až 68 % osob, a pokud došlo ke shodě, byla správná v 90 % případů.

Sweeney musela za soubor se stovkami tisíc záznamů zaplatit pouhých 50 dolarů. Dnes dokáží modely LLM deanonymizovat profily za 1–4 dolary za každý a provádět práci automaticky. Nepotřebují také čisté, strukturované datové soubory a dokáží rozpoznat vzorce v běžných příspěvcích a komentářích.

Jak uvádí jeden z výzkumníků:

„Zeptejte se sami sebe: Dokázal by tým chytrých vyšetřovatelů z vašich příspěvků zjistit, kdo jste? Pokud ano, agenti LLM to pravděpodobně dokážou také a náklady na takové zjištění se neustále snižují.“

Chraňte své soukromí minimalizací a šifrováním dat

Anonymizace dat nestačí, protože při spojení souvislostí může dojít k opětovné identifikaci. Nejlepším způsobem, jak se chránit, je minimalizovat svou digitální stopu, čímž ztížíte svou opětovnou identifikaci.

Nemusíte se hned odpojovat od okolního světa, ale měli byste si více rozmýšlet, co a jak sdílíte. Zde je několik praktických tipů:

Oddělte své identity, abyste se chránili před křížovými odkazy

Když na všech platformách používáte stejný e-mail a uživatelské jméno, lze vaše detaily snadno spojit dohromady. Je jednoduché vygenerovat různá uživatelská jména pro různé účty, ale používat pro vše unikátní e-mailové adresy může být noční můra, pokud nepoužíváte e-mailové aliasy.

Aliasy vytvářejí samostatné adresy, které přeposílají zprávy do vaší hlavní doručené pošty, aniž by odhalily vaši skutečnou e-mailovou adresu a identitu. Pokud pro každou službu použijete unikátní e-mailový alias, můžete zjistit, odkud pochází únik nebo prodej dat.

Pokud si například vytvoříte jeden alias pouze pro společnost A a později na tento alias obdržíte e-maily od společnosti B, víte, že společnost A vaši adresu buď sdílela, prodala, nebo nad ní ztratila kontrolu v důsledku úniku. Tento alias pak můžete deaktivovat, aniž by to ovlivnilo vaši hlavní doručenou poštu nebo ostatní aliasy.

Buďte nekonzistentní, abyste se chránili před identifikovatelnými vzorci

Čím konzistentnější jsou vaše detaily napříč platformami, tím snazší je vytvořit si o vás unikátní profil. Kde je to možné, vyvarujte se poskytování více informací, než je nutné.

Uvádějte například obecnou polohu namísto přesného města, zaokrouhlujte svůj věk a přeskakujte nepovinná pole. Zvažte také drobné obměny stylu psaní, jako jsou opakované fráze, interpunkce nebo běžné překlepy, abyste omezili automatizovanou identifikaci.

Omezte svou digitální stopu, abyste se chránili před analýzou AI

Modely LLM dokážou identifikovat osoby hledáním vzorců v příspěvcích a psaném projevu. Čím méně veřejného obsahu je spojeno s vaší identitou, tím méně materiálu mají k dispozici. Zvažte, kolik osobních detailů prozrazujete při zveřejňování příspěvků – nejen fakta, ale i zvyky, názory a opakující se témata, díky nimž vyčníváte. Nezapomeňte se na co nejvíce platformách odhlásit z trénování AI.

Používejte koncové šifrované služby k ochraně před sběrem dat

Šifrování nechrání data pouze před hackery, ale především omezuje to, co lze vůbec přečíst. Poskytovatel e-mailu, který nemůže číst vaše zprávy, je nemůže skenovat pro účely reklamy, používat je pro trénování AI ani sdílet poznatky s brokery.

Používejte e-mail s koncovým šifrováním pro soukromou komunikaci, zabezpečené cloudové úložiště pro bezpečné ukládání a sdílení souborů a VPN(nové okno) bez protokolování (no-logs) k šifrování vašich aktivit při procházení internetu – to vše snižuje množství dat, která nechtěně vystavujete na odiv.

Odhlašte se ze sběru dat, abyste se chránili před brokery

Osobní informace je možné z internetu odebrat, a to i od datových brokerů, vyžaduje to však vytrvalost. Sběr dat do budoucna to sice nezastaví, ale může vám to poskytnout nový začátek. Do budoucna vám minimalizace digitální stopy a šifrování dat pomůže omezit množství shromažďovaných údajů.

Diagram vysvětlující, jak se stát více anonymním

Anonymizace není zárukou soukromí

Hlavním ponaučením je, že „anonymizované“ neznamená vždy bezpečné, trvalé nebo nemožné dohledat. Čím méně osobních informací sdílíte, čím méně jste konzistentní napříč platformami a čím větší kontrolu si udržujete nad svými účty a aliasy, tím méně signálů lze zpětně spojit s vaší osobou.

Vaše data mohou být anonymizovaná na papíře, ale vaše nejsilnější ochrana začíná ještě před tímto bodem: tím, co a kde se rozhodnete sdílet a jak snadno to lze propojit se zbytkem vašeho digitálního života. To také znamená být obezřetný ohledně služeb, které každý den používáte, a společností, které je vlastní.

Aplikace Proton mají otevřený zdrojový kód, jsou bez reklam a navrženy tak, aby se vyhnuly sledování a trénování AI na jakýchkoli vašich datech. Díky koncovému šifrování, šifrování s nulovým přístupem a obchodnímu modelu financovanému výhradně naší komunitou platících předplatitelů vaše data nemusíme zneužívat, většinu z nich nemůžeme číst – a ani nechceme.