Veri anonimleştirme sizi anonim yapmaz. İşte nedeni.

Şirketler kişisel verilerinizin anonimleştirildiğini söylediğinde, çevrim içi kimliğinizin temelli silindiği kulağa hoş gelebilir. Bilgileriniz bir veri kümesindeki gürültüye dönüşür, böylece gardınızı indirebilirsiniz. Pek sayılmaz.

Anonimleştirilmiş veriler; ad veya ev adresi gibi en belirgin kişisel tanımlayıcıların kaldırıldığı verilerdir. Ancak birbiriyle bağlantılı veri tabanlarıyla dolu bir dünyada, birinin izini sürmek için görünüşte ilgisiz yalnızca birkaç ayrıntı yeterlidir.

Araştırmalar(yeni pencere), milyonlarca kişilik bir veri kümesindeki insanların yüzde 99,98’ini tanımlamak için yalnızca 15 veri noktasının yeterli olduğunu göstermiştir. Yapay zekanın çevrim içi etkinliğinizdeki noktaları birleştirmesiyle, “anonim” ile “tanımlanmış” arasındaki boşluk daralıyor.

Veri anonimleştirmenin gerçekte ne anlama geldiğine ve gizliliğinizi daha iyi korumak için neler yapabileceğinize bir göz atalım.

Veri anonimleştirme nedir?
Anonimleştirme ve takma adla anonimleştirme karşılaştırması
Yaygın veri anonimleştirme teknikleri
Şirketler anonimleştirilmiş verileri nasıl kullanır?
Verilerin yeniden tanımlanması veya anonimleştirilmiş verilerin neden gerçekten anonim olmadığı
Yapay zeka, anonimliği bozmayı daha hızlı ve ucuz hale getiriyor
Verileri küçülterek ve şifreleyerek gizliliğinizi koruyun
Anonimleştirme bir gizlilik garantisi değildir

Veri anonimleştirme nedir?

Veri anonimleştirme; adınız, e-posta adresiniz, iletişim numaranız veya doğum gününüz gibi kişisel olarak tanımlanabilecek her şeyin veri noktalarından kaldırıldığı geri döndürülemez bir süreçtir. Amaç, bir kayıt ile bir kişi arasındaki bağlantıyı mümkün olduğunca koparmaktır.

Ancak anonimleştirme işleminden sonra veriler; genel konumunuz, gezinme alışkanlıklarınız ve yaş aralığınız gibi dolaylı ipuçlarını hâlâ içerir. Bu ayrıntılar tek başlarına oldukça zararsızdır ancak bir araya getirildiklerinde sizi işaret eden bir örüntü oluştururlar.

Anonimleştirmenin nasıl çalıştığını açıklayan bir şema

Biyometrik gibi bazı veri türlerini gerçekten anonimleştirmek özellikle zordur (hatta imkansızdır). Güvenli bir kullanıcı adı oluşturabilirsiniz ancak bir kişinin yüzünü, parmak izini veya iris desenini değiştiremezsiniz.

Veriler gerçekten anonimleştirildiğinde, GDPR gibi gizlilik yasaları kapsamında artık kişisel veri olarak kabul edilmez. Bu, şirketlerin bu verileri kişisel veriler için geçerli olan onay ve koruma gereklilikleri olmadan kullanabileceği anlamına gelir.

Ancak GDPR’ın 26. Gerekçesi(yeni pencere) çıtayı yüksek tutuyor: Veriler, onları yeniden tanımlamak için makul bir şekilde kullanılabilecek diğer bilgiler ve yöntemler düşünüldüğünde bile artık bir kişiyi tanımlamamalıdır. Dolayısıyla kalan veriler hâlâ birini işaret ediyorsa adların veya e-posta adreslerinin silinmesi yeterli değildir.

Anonimleştirme ve takma adla anonimleştirme karşılaştırması

Anonimleştirme, bir kişiye kadar takip edilememesini sağlamak için tanımlanabilir bilgileri kalıcı olarak kaldırırken; takma adla anonimleştirme, bu verileri bir etiket, kod (belirteç) veya kodla değiştirir. Orijinal kimlik, güvenli bir anahtarda veya arama tablosunda ayrı olarak kaydedilmiş şekilde tutulur ancak doğru erişimle bu etiket gerçek bir kişiye bağlanabilir.

Takma adla anonimleştirmeye bir örnek, hasta adlarının kodlarla değiştirildiği tıbbi araştırmalardır. Araştırmacılar verileri hâlâ takip edebilir ancak yalnızca anahtara sahip yetkili personel bunları bireyle yeniden bağlantı kurabilir şekilde eşleştirebilir.

Bu fark basit ama önemlidir. Takma adla anonimleştirme, GDPR gibi yönetmelikler kapsamında kişisel veri sayılır çünkü hâlâ bir kişiyle bağlantı kurulabilir. Buna karşılık anonimleştirilmiş veriler, yalnızca yeniden tanımlama artık makul ölçüde mümkün olmadığında bu yükümlülüklerin dışında kalır.

Yaygın veri anonimleştirme teknikleri

Şirketler, verileri nasıl kullanmayı planladıklarına bağlı olarak farklı anonimleştirme yöntemleri kullanırlar. İşte yaygın yöntemlerden bazıları:

Veri maskeleme, bir telefon numarasını kurgusal bir numarayla değiştirmek gibi bilgileri sahte verilerle yer değiştirir.

Genelleştirme, tam yaş yerine yaş aralıklarını kullanmak gibi verileri daha az spesifik hâle getirir.

Veri değiş-tokuşu, kayıtlar arasındaki bilgileri karıştırarak verilerin artık orijinal kişiyle eşleşmemesini sağlar.

Veri pertürbasyonu, sayıları yuvarlayarak verileri değiştirmek gibi yöntemlerle veri eğilimlerini korurken bireysel ayrıntıları gizler.

Sentetik veri, gerçek kayıtları doğrudan kullanmadan orijinal veri kümesinin modellerini taklit eden yapay verilere dayanır.

Bu teknikler gizlilik risklerini azaltabilir ancak etkinlikleri tamamen ne kadar iyi uygulandıklarına bağlıdır. Öyle olsa bile, birini tanımlayabilecek her türlü ipucunu kaldıramayabilirler.

Şirketler anonimleştirilmiş verileri nasıl kullanır?

Anonimleştirilmiş veriler değerlidir çünkü şirketler bunları rızanız olmadan istedikleri şekilde yasal olarak kullanabilirler. Yaygın kullanım alanları şunlardır:

Analiz ve geliştirme: Şirketler; ürünleri iyileştirmek, eğilimleri ölçmek ve iş kararlarına yön vermek için kullanıcı davranışlarını inceler.

Reklamcılık: Göz atma ve satın alma modelleri, isminiz ekli olmasa bile hedefli reklamlar için hedef kitle segmentleri oluşturmak amacıyla kullanılabilir.

Veri simsarları: Bazı veriler, veri simsarları tarafından bir araya getirilir, paketlenir ve yeniden satılır. Bu şirketler; uygulamalardan, sitelerden, kamu kayıtlarından, kredi verilerinden ve daha fazlasından gelen bilgileri birleştirerek, az miktarda yasal denetimle isteyen herkese satılan ayrıntılı profiller oluşturur.

Yapay zeka modellerinin eğitimi: Büyük veri kümeleri; kullanıcı etkinliğinden alınan veriler, satın alınan veri kümeleri ve kamuya açık veya kazınmış kaynaklar dahil olmak üzere genellikle yapay zeka sistemlerini eğitmek için kullanılır.

Tıbbi araştırma: Bazı ülkelerde(yeni pencere), anonimleştirilmiş tıbbi veriler ilaç şirketlerine satılabilir veya araştırmacılarla paylaşılabilir.

Anonimleştirilmiş veriler, hizmetleri iyileştirmek veya araştırmaları desteklemek gibi iyi amaçlar için kullanılabilir. Sorun şu ki; bu durum veri simsarları ve reklamcılar için kişilerin bilgilerini genellikle tam olarak anlamadıkları veya anlamlı bir şekilde rıza göstermedikleri yollarla toplamak, birleştirmek, paylaşmak, yeniden paketlemek ve satmak için güçlü bir ticari teşvik yaratmaktadır. Daha sonra ayrılmaya karar veren kişiler için verilerini sildirmek basit değildir.

Kaliforniya’nın gizlilik düzenleyici kuruluşu DROP(yeni pencere) sistemini oluşturdu çünkü yüzlerce veri simsarından veri silmek tarihsel olarak bireylerin yönetmesi için zor olmuştur. Bu durum yapay zeka eğitim verileriyle çok daha zordur, çünkü veriler eğitilmiş bir modeli bir kez etkilediğinde, bunları kaldırmak yapay zeka şirketlerinin pek istekli olmadığı(yeni pencere) makine unutma(yeni pencere) tekniklerini gerektirebilir.

Veriden yeniden kimlik tespiti veya anonimleştirilmiş verilerin neden gerçekten anonim olmadığı

Birisi size beyaz bir araba kullanan ve mahallenizde yaşayan 30’lu yaşlarında bir adamı aradığını söylerse, kimden bahsettiği hakkında zaten iyi bir fikriniz olabilir. Bu ayrıntıların hiçbiri kişiyi tek başına tanımlayamaz ancak bir araya geldiklerinde diğer herkesi dışlayarak olasılıkları daraltmaya yardımcı olurlar. Anonimleştirilmiş veriler de aynı şekilde çalışır: İsimler ve kişi bilgileri kaldırılmış olsa bile, kalan bilgiler yeterli ayrıntı birleştirildiğinde hala ifşa edici olabilir.

Bu modeller sosyal medya veya kamu kayıtları gibi diğer kaynaklarla çapraz referanslandığında, sözde anonim verileri bir kişiyle bağlantı kurmak mümkün hâle gelir. Bu, yeniden kimlik tespiti olarak bilinir ve genellikle beklediğinizden daha kolaydır.

Yeniden kimlik tespitinin nasıl çalıştığını açıklayan bir diyagram

Araştırmacı Latanya Sweeney, demografik bilgiler, tanılar ve faturalama ayrıntıları gibi dolaylı tanımlayıcılar içeren bir hastane veri kümesini(yeni pencere) 50 ABD doları karşılığında satın aldı. İsimler gibi ifşa edici ayrıntılar dahil edilmemişti. Bu verileri hastaneye yatışlarla ilgili yerel haberlerle çapraz referanslayarak, bildirilen bir motosiklet kazasına karışan bir hastanın tam tıbbi geçmişi de dahil olmak üzere hastaların yüzde 43’ünü kayıtlarıyla eşleştirmeyi başardı.

Yapay zeka, anonimlikten çıkarmayı daha hızlı ve ucuz hâle getiriyor

Anonim verilerden yeniden kimlik tespitine karşı tek koruma zaman, sabır ve manuel çapraz referanslamaysa, bu tesadüfi koruma yapay zeka ile aşınıyor.

Araştırmalar, büyük dil modellerinin (LLM’ler) birinin platformlardaki gönderilerini analiz edebildiğini, kamuya açık bilgilerle çapraz referans kurabildiğini ve anonim kullanıcıları inanılmaz bir hassasiyetle tanımlayabildiğini gösteriyor. Ölçekli anonimlikten çıkarma üzerine yapılan bir çalışmada(yeni pencere), LLM tabanlı yöntemler kişilerin yüzde 68’ine kadarını tanımladı ve bir eşleşme yaptıklarında, zamanın yüzde 90’ında haklıydılar.

Sweeney, yüz binlerce kayıttan oluşan bir veri kümesi için yalnızca 50 ABD doları ödemek zorundaydı. Bugün LLM’ler, profilleri her biri 1-4 ABD doları karşılığında anonimlikten çıkarabiliyor ve işi otomatik olarak yapabiliyor. Ayrıca temiz, yapılandırılmış veri kümelerine ihtiyaç duymazlar ve sıradan gönderilerdeki ve yorumlardaki kalıpları fark edebilirler.

Araştırmacılardan birinin ifadesiyle:

“Kendinize sorun: Akıllı araştırmacılardan oluşan bir ekip, gönderilerinizden kim olduğunuzu anlayabilir mi? Yanıtınız evet ise büyük dil modeli (LLM) aracıları da muhtemelen aynısını yapabilir ve bunun maliyeti giderek azalıyor.”

Verileri küçülterek ve şifreleyerek gizliliğinizi koruyun

Noktalar arasında bağlantı kurulduğunda yeniden kimlik belirleme yapılabileceğinden, verileri anonimleştirmek yeterli değildir. Kendinizi korumanın en iyi yolu dijital ayak izinizi küçülterek yeniden kimliğinizin tespit edilmesini zorlaştırmaktır.

Tamamen gözlerden uzak bir hayat sürmeniz gerekmiyor ancak neleri ve nasıl paylaşacağınız konusunda daha temkinli olmalısınız. İşte bazı pratik ipuçları:

Çapraz referans oluşturmaya karşı korunmak için kimliğinizi bölümlere ayırın

Tüm platformlarda aynı e-posta adresini ve kullanıcı adını kullandığınızda, ayrıntılarınızı bir araya getirmek kolaylaşır. Farklı hesaplar için farklı kullanıcı adları oluşturmak basittir ancak e-posta takma adları kullanmıyorsanız her şey için benzersiz e-posta adresleri kullanmak tam bir kabus olabilir.

Takma adlar, gerçek e-posta adresinizi ve kimliğinizi açığa çıkarmadan iletileri ana gelen kutunuza yönlendiren ayrı e-posta adresleri oluşturur. Her hizmet için benzersiz bir e-posta takma adı kullanırsanız, bir sızıntının veya veri satışının nereden kaynaklandığını görebilirsiniz.

Örneğin, yalnızca A Şirketi için bir takma ad oluşturursanız ve daha sonra bu takma ada B Şirketi’nden e-postalar gelirse A Şirketi’nin adresinizi paylaştığını, sattığını, sızdırdığını veya kontrolünü kaybettiğini anlarsınız. Bu durumda ana gelen kutunuzu veya diğer takma adlarınızı etkilemeden söz konusu takma adı kullanımdan dışı bırakabilirsiniz.

Tanımlanabilir kalıplara karşı korunmak için tutarsız olun

Ayrıntılarınız platformlar arasında ne kadar tutarlı olursa, hakkınızda benzersiz bir profil oluşturmak o kadar kolay olur. Mümkün olduğunda gereğinden fazla bilgi vermekten kaçının.

Örneğin, tam şehriniz yerine genel bir konum kullanın, yaşınızı yuvarlayın ve isteğe bağlı alanları atlayın. Ayrıca otomatik kimlik tespitini sınırlamak için tekrarlanan ifadeler, noktalama işaretleri veya yaygın yazım hataları gibi yazım tarzınızda küçük değişiklikler yapmayı düşünün.

Yapay zeka analizine karşı korunmak için dijital ayak izinizi sınırlayın

Büyük dil modelleri (LLM), gönderilerdeki ve yazılardaki kalıpları bularak kişilerin kimliğini tespit edebilir. Kimliğinizle bağlantılı genel içerik ne kadar az olursa, üzerinde çalışılacak o kadar az materyal kalır. Bir gönderi paylaşırken yalnızca gerçekleri değil, aynı zamanda sizi öne çıkaran alışkanlıkları, görüşleri ve yinelenen konuları da ne kadar ifşa ettiğinizi düşünün. Mümkün olduğunca çok platformda yapay zeka eğitiminden vazgeçtiğinizden emin olun.

Veri toplamaya karşı korunmak için uçtan uca şifrelenmiş hizmetler kullanın

Şifreleme verileri yalnızca korsanlardan korumakla kalmaz, aynı zamanda en başta nelerin okunabileceğini de sınırlar. İletilerinizi okuyamayan bir e-posta hizmeti sağlayıcısı, bu iletileri reklam amaçlı tarayamaz, yapay zeka eğitimi için kullanamaz veya veri simsarlarıyla bilgi paylaşamaz.

Güvenli iletişim için uçtan uca şifrelenmiş e-posta, dosyaları güvenle saklamak ve paylaşmak için güvenli bulut depolama alanı ve göz atma etkinliğinizi şifrelemek için günlük tutmayan bir VPN(yeni pencere) kullanın; bunların tümü, istemeden ifşa ettiğiniz veri miktarını azaltır.

Veri simsarlarına karşı korunmak için veri toplama özelliğini kapatın

Kişisel bilgileri internetten, hatta veri simsarlarından silmek mümkündür ancak bu kararlılık gerektirir. Bu durum gelecekteki veri toplanmasını durdurmasa da size temiz bir başlangıç yapma imkanı verir. Gelecekte dijital ayak izinizi küçültmek ve mümkün olan yerlerde verilerinizi şifrelemek, nelerin toplanacağını sınırlamaya yardımcı olacaktır.

Kendinizi nasıl daha anonim hale getirebileceğinizi açıklayan bir diyagram

Anonimleştirme bir gizlilik garantisi değildir

Buradan çıkarılması gereken temel sonuç, “anonimleştirilmiş” ifadesinin her zaman güvenli, kalıcı veya izlenmesi imkansız anlamına gelmediğidir. Ne kadar az kişisel bilgi paylaşırsanız, platformlar arasında ne kadar az tutarlı olursanız ve hesaplarınız ile takma adlarınız üzerindeki kontrolünüzü ne kadar fazla korursanız, sizinle bağlantı kuracak o kadar az sinyal kalır.

Verileriniz kağıt üzerinde anonimleştirilmiş olabilir ancak en güçlü korumanız bu noktadan önce başlar: neleri ve nerede paylaşmayı seçtiğiniz ve bunun dijital hayatınızın geri kalanıyla ne kadar kolay bağlantı kurulabileceği ile ilgilidir. Bu aynı zamanda, her gün kullandığınız hizmetler ve bu hizmetlerin sahibi olan şirketler konusunda bilinçli davranmak anlamına gelir.

Proton uygulamaları açık kaynaklıdır, reklam içermez ve hiçbir veriniz üzerinden izleme yapmaktan ve yapay zeka eğitiminden kaçınacak şekilde tasarlanmıştır. Uçtan uca şifreleme, sıfır erişimli şifreleme ve yalnızca ücretli abonelerden oluşan topluluğumuz tarafından finanse edilen bir iş modeliyle verilerinizi istismar etmemize gerek yoktur, çoğunu okuyamayız ve zaten okumak da istemiyoruz.

Anonimleştirme açıklandı: Verileriniz anonimse, reklamverenler sizi neden hâlâ hedefleyebiliyor?