Tietojen anonymisointi ei tee teistä anonyymiä. Tässä syy.

Kun yritykset sanovat, että henkilötietonne on anonymisoitu, se kuulostaa siltä, että yhdistetty henkilöllisyytenne on poistettu lopullisesti. Tiedonanne tulee kohinaa tietojoukossa, joten voitte laskea suojauksenne. No, ei aivan.

Anonymisoitu data on dataa, josta ilmeisimmät henkilötunnisteet, kuten nimi tai kotiosoite, on poistettu. Mutta maailmassa, joka on täynnä toisiinsa yhdistettyjä tietokantoja, jonkun jäljittämiseen tarvitaan vain kourallinen näennäisesti toisiinsa liittymättömiä tietoja.

Tutkimus(uusi ikkuna) on osoittanut, että tarvitaan vain 15 tietopistettä tunnistamaan 99,98 % ihmisistä miljoonien tietueiden joukosta. Ja kun tekoäly yhdistää pisteet yhdistetyssä toiminnassanne, kuilu ”anonyymin” ja ”tunnistetun” välillä pienenee.

Tarkastellaanpa, mitä tietojen anonymisointi todellisuudessa tarkoittaa ja mitä voitte tehdä suojataksenne yksityisyyttänne paremmin.

Mitä tietojen anonymisointi on?
Anonymisointi vs. pseudonymisointi
Yleiset tietojen anonymisointitekniikat
Miten yritykset käyttävät anonymisoitua dataa
Tietojen uudelleentunnistaminen, eli miksi anonymisoitu data ei ole todella anonyymiä
Tekoäly tekee de-anonymisoinnista nopeampaa ja halvempaa
Suojatkaa yksityisyyttänne minimoimalla ja salaamalla tiedot
Anonymisointi ei ole yksityisyystakuu

Mitä tietojen anonymisointi on?

Tietojen anonymisointi on peruuttamaton prosessi, jossa tietopisteistä poistetaan kaikki henkilökohtaisesti tunnistettava tieto, kuten nimenne, sähköpostiosoitteenne, yhteystietonne tai syntymäpäivänne. Tavoitteena on katkaista linkki tietueen ja henkilön välillä mahdollisimman tehokkaasti.

Anonymisoinnin jälkeen tiedot sisältävät kuitenkin edelleen epäsuoria vihjeitä, kuten yleisen sijaintinne, selaustottumuksenne ja ikäryhmänne. Yksittäin nämä tiedot ovat melko harmittomia, mutta yhdessä ne muodostavat kaavan, joka osoittaa teihin.

Kaavio, joka selittää anonymisoinnin toimintaa

Joitakin tietotyyppejä, kuten biometrisiä tietoja, on erityisen vaikea (tai jopa mahdoton) todella anonymisoida. Voitte luoda turvallisen käyttäjätunnuksen, mutta ette voi muuttaa henkilön kasvoja, sormenjälkiä tai iiriksen kuviota.

Kun data on todella anonymisoitu, sitä ei enää pidetä henkilötietoina tietosuojalakien, kuten GDPR-asetuksen, mukaan. Tämä tarkoittaa, että yritykset voivat käyttää sitä ilman suostumusta ja henkilötietoihin sovellettavia suojeluvaatimuksia.

Mutta GDPR:n johdanto-osan 26 kappale(uusi ikkuna) asettaa riman korkealle: tietojen on oltava sellaisia, ettei niistä voida enää tunnistaa henkilöä, vaikka otettaisiin huomioon muut tiedot ja menetelmät, joita voitaisiin kohtuudella käyttää heidän uudelleentunnistamiseensa. Nimien tai sähköpostiosoitteiden poistaminen ei siis riitä, jos jäljelle jäänyt data osoittaa edelleen johonkin henkilöön.

Anonymisointi vs. pseudonymisointi

Siinä missä anonymisointi poistaa tunnistetiedot pysyvästi sen varmistamiseksi, ettei niitä voida jäljittää takaisin yksilöön, pseudonymisointi korvaa tiedot tunnisteella, koodilla tai merkillä. Alkuperäinen henkilöllisyys tallennetaan erikseen suojattuun avaimeen tai hakutaulukkoon, mutta oikeilla käyttöoikeuksilla kyseinen tunniste voidaan linkittää takaisin todelliseen henkilöön.

Esimerkki pseudonymisoinnista on lääketieteellinen tutkimus, jossa potilaiden nimet korvataan koodeilla. Tutkijat voivat edelleen seurata tietoja, mutta vain valtuutettu henkilöstö, jolla on avain, voi yhdistää ne takaisin yksilöön.

Tämä ero on yksinkertainen mutta tärkeä. Pseudonymisointi katsotaan henkilötiedoksi GDPR:n kaltaisten säädösten mukaan, koska se voidaan edelleen linkittää takaisin henkilöön. Anonymisoitu data puolestaan jää näiden velvoitteiden ulkopuolelle vain silloin, kun uudelleentunnistaminen ei ole enää kohtuudella mahdollista.

Yleiset tietojen anonymisointitekniikat

Yritykset käyttävät erilaisia anonymisointimenetelmiä riippuen siitä, miten ne aikovat tilausta käyttää. Tässä on joitakin yleisimpiä:

Tietojen peittäminen korvaa tiedot valetiedoilla, kuten vaihtamalla puhelinnumeron keksittyyn numeroon.

Yleistäminen tekee tiedoista vähemmän yksityiskohtaisia, kuten käyttämällä ikäryhmiä tarkan iän sijasta.

Tietojen vaihtaminen sekoittaa tietoja tietueiden välillä, jotta ne eivät enää vastaa alkuperäistä henkilöä.

Tietojen häirintä hämärtää yksittäisiä tietoja säilyttäen samalla tietojen trendit, esimerkiksi muuttamalla lukuja pyöristämällä niitä.

Synteettinen data perustuu keinotekoisesti luotuun tietoon, joka jäljittelee alkuperäisen tietojoukon malleja käyttämättä suoraan todellisia tietueita.

Nämä tekniikat voivat vähentää yksityisyysriskejä, mutta niiden tehokkuus riippuu täysin siitä, kuinka hyvin niitä käytetään. Silloinkaan ne eivät välttämättä poista jokaista vihjettä, jonka avulla joku voitaisiin tunnistaa.

Miten yritykset käyttävät anonymisoitua dataa

Anonymisoitu data on arvokasta, koska yritykset voivat laillisesti käyttää sitä haluamallaan tavalla ilman suostumustanne. Yleisiä käyttötapoja ovat:

Analytiikka ja kehitys: Yritykset tutkivat käyttäjien käyttäytymistä parantaakseen tuotteitaan, mitatakseen trendejä ja ohjatakseen liiketoimintapäätöksiä.

Mainonta: Selaus- ja ostotottumuksia voidaan käyttää yleisösegmenttien rakentamiseen kohdistettuja mainoksia varten, vaikka niihin ei olisikaan liitetty nimeänne.

Databrokerit: Databrokerit keräävät, paketoivat ja myyvät edelleen osan tiedoista. Nämä yritykset yhdistävät sovelluksista, verkkosivustoilta, julkisista rekistereistä, krediiteistä ja muista lähteistä saatuja tietoja rakentaakseen yksityiskohtaisia profiileja, joita myydään kenelle tahansa tarvitsevalle ilman merkittävää laillista valvontaa.

Tekoälymallien koulutus: Suuria tietojoukkoja käytetään usein tekoälyjärjestelmien kouluttamiseen, mukaan lukien käyttäjien toiminnasta saadut tiedot, ostetut tietojoukot sekä julkiset tai kerätyt lähteet.

Lääketieteellinen tutkimus: Joissakin maissa(uusi ikkuna), anonymisoituja lääketieteellisiä tietoja voidaan myydä lääkeyhtiöille tai jakaa tutkijoille.

Anonymisoitua dataa voidaan käyttää hyvään, kuten palveluiden parantamiseen tai tutkimuksen tukemiseen. Ongelmana on, että se luo databrokereille ja mainostajille vahvan kaupallisen kannustimen kerätä, yhdistää, jakaa, paketoida uudelleen ja myydä ihmisiä koskevia tietoja, usein tavoilla, joita ihmiset eivät täysin ymmärrä tai joihin he eivät ole antaneet tarkoituksenmukaista suostumustaan. Niille, jotka myöhemmin päättävät haluavansa poistua palvelusta, tietojensa poistaminen ei ole yksinkertaista.

Kalifornian yksityisyysviranomainen loi DROP(uusi ikkuna)-järjestelmän, koska tietojen poistaminen sadoilta databrokereilta on historiallisesti ollut yksilöille vaikeaa hallita. Tämä on paljon vaikeampaa tekoälyn koulutusdatan kohdalla, sillä kun tiedot ovat jo vaikuttaneet koulutettuun malliin, niiden poistaminen voi vaatia koneellisia unlearning-tekniikoita(uusi ikkuna), joihin tekoäly-yhtiöillä ei ole halukkuutta(uusi ikkuna).

Datan uudelleentunnistaminen eli miksi anonymisoitu data ei ole todella anonyymiä

Jos joku kertoo etsivänsä 30-vuotiasta miestä, joka ajaa valkoista autoa ja asuu naapurustossanne, saatatte jo arvata, ketä hän tarkoittaa. Mikään näistä tiedoista ei yksistään tunnista henkilöä, mutta yhdessä ne auttavat rajaamaan mahdollisuuksia sulkemalla pois kaikki muut. Anonymisoitu data toimii samalla tavalla: vaikka nimet ja yhteystiedot poistetaan, jäljelle jäävät tiedot voivat silti paljastaa henkilöllisyyden, kun riittävästi tietoja yhdistetään.

Kun näitä malleja verrataan muihin lähteisiin, kuten sosiaaliseen mediaan tai julkisiin rekistereihin, tulee mahdolliseksi yhdistää oletettavasti anonyymi data tiettyyn henkilöön. Tämä tunnetaan uudelleentunnistamisena, ja se on usein helpompaa kuin odottaisitte.

Kaavio, joka selittää, miten uudelleentunnistaminen toimii

Tutkija Latanya Sweeney osti 50 dollarilla sairaalan tietojoukon(uusi ikkuna), joka sisälsi epäsuoria tunnisteita, kuten väestötietoja, diagnooseja ja laskutustietoja. Suoria tietoja, kuten nimiä, ei ollut mukana. Vertailemalla näitä tietoja paikallisiin uutisiin sairaalahoidoista hän pystyi yhdistämään 43 % potilaista heidän tietoihinsa, mukaan lukien erään raportoidussa moottoripyöräonnettomuudessa osallisena olleen potilaan koko sairaushistorian.

Tekoäly tekee deanonymisoinnista nopeampaa ja halvempaa

Jos ainoa suoja anonyymin datan uudelleentunnistamista vastaan on aika, kärsivällisyys ja manuaalinen ristiinvertailu, tuo satunnainen suoja on murenemassa tekoälyn myötä.

Tutkimukset osoittavat, että suuret kielimallit (LLM) voivat analysoida henkilön julkaisuja eri alustoilla, verrata julkisia tietoja ja tunnistaa anonyymit käyttäjät uskomattoman tarkasti. Eräässä laajamittaista deanonymisointia käsittelevässä tutkimuksessa(uusi ikkuna) LLM-pohjaiset menetelmät tunnistivat jopa 68 % ihmisistä, ja kun ne löysivät osuman, ne olivat oikeassa 90 %:ssa tapauksista.

Sweeneyn piti maksaa vain 50 dollaria tietojoukosta, jossa oli satojatuhansia tietueita. Nykyään kielimallit voivat deanonymisoida profiileja 1–4 dollarin hintaan kappaleelta ja tehdä työn automaattisesti. Ne eivät myöskään tarvitse siistejä, jäsenneltyjä tiedostoja, vaan ne voivat havaita malleja tavallisissa julkaisuissa ja kommenteissa.

Kuten eräs tutkijoista toteaa:

”Kysykää itseltänne: voisiko älykkäiden tutkijoiden ryhmä selvittää henkilöllisyytenne julkaisujenne perusteella? Jos vastaus on kyllä, LLM-agentit pystyvät todennäköisesti samaan, ja sen tekemisen kustannukset vain laskevat.”

Suojatkaa yksityisyyttänne minimoimalla ja salaamalla tiedot

Tietojen anonymisointi ei riitä, sillä uudelleentunnistaminen voi tapahtua, kun eri tiedonmurusia yhdistetään. Paras tapa suojautua on pienentää digitaalista jalanjälkeänne, jolloin teitä on vaikeampi tunnistaa uudelleen.

Teidän ei tarvitse kadota kokonaan verkosta, mutta teidän tulisi olla harkitsevaisempia sen suhteen, mitä ja miten jaatte tietoja. Tässä on muutamia käytännön vinkkejä:

Lokeroikaa henkilöllisyytenne suojautuaksenne ristiinvertailulta

Kun käytätte samaa sähköpostiosoitetta ja käyttäjätunnusta kaikilla alustoilla, tietojenne yhdistäminen on helppoa. On yksinkertaista luoda erilaisia käyttäjätunnuksia eri tileille, mutta ainutlaatuisten sähköpostiosoitteiden käyttäminen kaikkeen voi olla painajaismaista, ellette käytä sähköpostialiaksia.

Aliakset luovat erillisiä osoitteita, jotka välittävät viestit pääasialliseen saapuneet-kansioonne paljastamatta oikeaa sähköpostiosoitettanne ja henkilöllisyyttänne. Jos käytätte yksilöllistä sähköpostialiasta jokaisessa palvelussa, voitte nähdä, mistä tietovuoto tai tietojen myynti on peräisin.

Jos esimerkiksi luotte yhden aliaksen vain yritystä A varten ja saatte myöhemmin kyseiseen aliakseen sähköposteja yritykseltä B, tiedätte, että yritys A on joko jakanut, myynyt tai vuotanut osoitteenne tai menettänyt sen hallinnan. Voitte tällöin poistaa kyseisen aliaksen käytöstä vaikuttamatta pääasialliseen saapuneet-kansioonne tai muihin aliaksiinne.

Olkaa epäjohdonmukaisia suojautuaksenne tunnistettavilta kaavoilta

Mitä johdonmukaisempia tietonne ovat eri alustoilla, sitä helpompaa teistä on rakentaa yksilöllinen profiili. Välttäkää mahdollisuuksien mukaan antamasta enempää tietoja kuin on tarpeen.

Käyttäkää esimerkiksi yleistä sijaintia tarkan kaupungin sijaan, pyöristäkää ikänne ja ohittakaa valinnaiset kentät. Harkitkaa myös pienten vaihteluiden tekemistä kirjoitustyyliinne, kuten toistuvien ilmaisujen, välimerkkien tai yleisten kirjoitusvirheiden käyttöä, rajoittaaksenne automaattista tunnistamista.

Rajoittakaa digitaalista jalanjälkeänne suojautuaksenne tekoälyanalyysiltä

LLM-mallit voivat tunnistaa ihmisiä löytämällä kaavoja julkaisuista ja kirjoitustyylistä. Mitä vähemmän julkista sisältöä henkilöllisyyteenne on kytketty, sitä vähemmän aineistoa analysoitavaksi jää. Miettikää, kuinka paljon henkilökohtaisia tietoja paljastatte postatessanne — ei vain faktoja, vaan myös tapoja, mielipiteitä ja toistuvia aiheita, jotka saavat teidät erottumaan joukosta. Muistakaa kieltäytyä tekoälykoulutuksesta (opt out) mahdollisimman monella alustalla.

Käyttäkää päästä päähän -salattuja palveluita suojautuaksenne tietojen keräämiseltä

Salaus ei ainoastaan suojaa tietoja hakkereilta, vaan se myös rajoittaa sitä, mitä ylipäätään voidaan lukea. Sähköpostipalvelu, joka ei pysty lukemaan viestejänne, ei voi skannata niitä mainontaa varten, käyttää niitä tekoälyn kouluttamiseen tai jakaa havaintojaan välittäjille.

Käyttäkää päästä päähän -salattua sähköpostia yksityiseen viestintään, suojattua pilvitallennustilaa tiedostojen turvalliseen säilyttämiseen ja jakamiseen sekä lokitonta VPN(uusi ikkuna)-palvelua selaustoimintanne salaamiseen — nämä kaikki vähentävät vastentahtoisesti paljastamanne tiedon määrää.

Kieltäytykää tietojen keräämisestä suojautuaksenne tiedonvälittäjiltä

On mahdollista poistaa henkilötiedot internetistä, jopa tiedonvälittäjiltä, mutta se vaatii sitkeyttä. Se ei estä tulevaa tietojen keräämistä, mutta se voi antaa uuden alun. Jatkossa digitaalisen jalanjälkenne pienentäminen ja tietojen salaaminen aina kun mahdollista auttaa rajoittamaan kerättävän tiedon määrää.

Kaavio, joka selittää, kuinka voitte muuttua anonyymimmäksi

Anonymisointi ei ole tae yksityisyydestä

Tärkein opetus on, että ”anonymisoitu” ei aina tarkoita turvallista, pysyvää tai mahdotonta jäljittää. Mitä vähemmän henkilökohtaisia tietoja jaatte, mitä epäjohdonmukaisempia olette eri alustoilla ja mitä enemmän pidätte hallinnassanne tilejänne ja aliaksianne, sitä vähemmän on merkkejä, jotka voidaan yhdistää takaisin teihin.

Tietonne voivat olla anonymisoituja paperilla, mutta vahvin suojanne alkaa jo ennen sitä: siitä, mitä ja missä valitsette jakaa, ja kuinka helposti se on yhdistettävissä muuhun digitaaliseen elämäänne. Se tarkoittaa myös harkitsevaisuutta päivittäin käyttämienne palveluiden ja ne omistavien yritysten suhteen.

Proton-sovellukset ovat avointa lähdekoodia, mainoksettomia ja suunniteltu välttämään seurantaa ja tekoäly-koulutusta millään tiedoillanne. Päästä päähän -salauksen, nollapääsysalauksen ja yksinomaan tilaajayhteisömme rahoittaman liiketoimintamallin ansiosta meidän ei tarvitse hyödyntää tietojanne, emme voi lukea suurinta osaa niistä — emmekä edes halua.

Anonymisointi selitettynä: Jos tietonne ovat anonyymejä, miksi mainostajat voivat edelleen kohdistaa mainontaa teille?