當公司聲稱您的個人資料已去識別化時,聽起來就像您的線上身分已被永久清除。您的資訊在資料集中變成了雜訊,因此您可以放下戒心。嗯,事實並非完全如此。
去識別化資料是指移除最明顯個人識別碼(如姓名或住家位址)後的資料。但在這個充滿互連資料庫的世界中,只需少量看似無關的詳細資料,就能追蹤到某人。
研究(新視窗)顯示,在數百萬人的資料集中,僅需 15 個資料點即可識別出 99.98% 的人。隨著 AI 連線您各項線上活動的關聯點,「匿名」與「已識別」之間的差距正在縮小。
讓我們來看看資料去識別化究竟意味著什麼,以及您可以採取哪些措施來更好地保護您的隱私。
- 什麼是資料去識別化?
- 去識別化 vs 去識別化(假名化)
- 常見的資料去識別化技術
- 公司如何使用去識別化資料
- 資料重新識別,或為何去識別化資料並非真正匿名
- AI 正在使去識別化破解變得更快、更便宜
- 透過最小化和加密資料來保護您的隱私
- 去識別化並非隱私的保證
什麼是資料去識別化?
資料去識別化是一個不可逆的過程,旨在從資料點中移除任何具個人識別性的內容,例如您的姓名、電子郵件地址、聯絡電話或生日。其目標是盡可能切斷記錄與個人之間的連結。
然而,去識別化後的資料仍包含間接線索,例如您的大致位置、瀏覽習慣和年齡範圍。單獨來看,這些詳細資料相當無害,但匯集在一起時,它們會形成一個指向您的模式。

某些類型的資料(例如生物特徵)特別難以(甚至不可能)真正去識別化。您可以建立一個安全的使用者名稱,但無法改變一個人的臉孔、指紋或虹膜圖案。
當資料被真正去識別化後,在 GDPR 等隱私法規下,它不再被視為個人資料。這意味著公司可以在未經同意的情況下使用它,且不需遵守適用於個人資料的保護要求。
但 GDPR 的第 26 條序言(新視窗)設定了很高的標準:即使考慮到可以合理用於重新識別該人的其他資訊和方法,資料也必須不再能識別出特定個人。因此,如果剩餘的資料仍能指向某人,僅移除姓名或電子郵件地址是不夠的。
去識別化 vs 假名化
去識別化是永久移除可識別資訊以確保無法追蹤回個人,而假名化則是用標籤、權杖或代碼取代該資料。原始身分會分開儲存在安全的金鑰或對照表中,但透過適當的存取權限,該標籤可以被連結回真實個人。
假名化的一個例子是醫學研究,其中患者姓名被代碼取代。研究人員仍能追蹤資料,但只有擁有金鑰的授權人員才能將其與個人重新連線。
這種區別簡單但重要。在 GDPR 等法規下,假名化被視為個人資料,因為它仍能被連結回某人。相比之下,去識別化資料只有在不再能合理地重新識別時,才不受這些義務約束。
常見的資料去識別化技術
企業會根據他們打算如何使用數據的方案,採用不同的去識別化方法。以下是一些常見的方式:
資料遮罩 會使用虛構數據取代資訊,例如將電話號碼更換為虛構的號碼。
一般化 會降低數據的精確度,例如使用年齡範圍而非確切年齡。
數據交換 會隨機打亂不同紀錄間的資訊,使其不再與原始當事人匹配。
數據微擾 會在保留數據趨勢的同時模糊個人詳細資料,例如透過四捨五入來改變數據。
合成數據 依賴於模擬原始數據集模式的人造數據,而無需直接使用真實紀錄。
這些技術可以降低隱私風險,但其成效完全取決於如何套用。即便如此,它們也可能無法移除所有可能識別某人身分的線索。
企業如何使用去識別化數據
去識別化數據非常有價值,因為企業可以合法地隨意使用,且無需徵得您的同意。常見用途包括:
分析與開發:企業研究使用者行為以改進產品、衡量趨勢並引導商業決策。
廣告:瀏覽與購買模式可用於建立目標廣告的受眾區隔,即使沒有附帶您的姓名也是如此。
資料掮客:部分數據會經由資料掮客聚合、打包並轉售。這些公司結合來自應用程式、網站、公開紀錄、可用額度數據等資訊,建立詳細資料檔案並出售給任何想要的人,且幾乎不受法律監管。
訓練 AI 模型:大型數據集常用於訓練 AI 系統,包括取自使用者活動、購買的數據集以及公開或擷取的來源。
醫學研究:在某些國家(新視窗),去識別化的醫療數據可以出售給製藥公司或與研究人員共享。
去識別化數據可用於正途,例如改進服務或支援研究。問題在於,這為資料掮客和廣告商創造了強大的商業誘因,去收集、組合、共享、重新包裝並販售個人資訊,且通常是以人們不完全理解或未實質同意的方式進行。對於後來決定退出的使用者來說,移除他們的數據並非易事。
加州隱私監管機構建立了 DROP(新視窗) 系統,因為從數百家資料掮客手中刪除數據對於個人管理來說向來非常困難。這在 AI 訓練數據方面更為艱難,因為一旦數據影響了已訓練的模型,移除它可能需要 機器去學習(新視窗) 技術,而 AI 公司對此缺乏意願(新視窗)。
數據重新識別,或為何去識別化數據並非真正的匿名
如果有人告訴您,他們正在尋找一位住在您附近、開著白色轎車的 30 多歲男性,您可能已經很清楚他們指的是誰。這些詳細資料單獨看都無法識別該人,但結合在一起時,就能透過排除其他所有人來縮小可能性。去識別化數據也是如此:即使姓名和聯絡詳細資訊已被移除,當足夠的詳細資料結合在一起時,剩餘的資訊仍可能揭露身分。
當這些模式與社群媒體或公開紀錄等其他來源進行交叉比對時,就有可能將所謂的匿名數據與個人連線起來。這被稱為重新識別,且其難度通常比您預想的要低。

研究人員 Latanya Sweeney 以 50 美元的價格購買了一份醫院數據集(新視窗),其中包含間接識別碼,例如人口統計、診斷和帳單詳細資料。姓名等顯性資訊並未包含在內。透過將此數據與當地的住院新聞報導進行交叉比對,她能夠將 43% 的患者與其紀錄匹配,其中包括一名涉及機車事故報導患者的完整病史。
AI 正在讓去匿名化變得更快速且更廉價
如果防止匿名數據重新識別的唯一保護手段只有時間、耐心和手動交叉比對,那麼這種偶然的保護正隨著 AI 的發展而瓦解。
研究顯示,大型語言模型 (LLM) 可以分析某人在不同平台上的貼文,交叉比對公開資訊,並以極高的精確度識別匿名使用者。在的一項大規模去匿名化研究(新視窗)中,基於 LLM 的方法識別出多達 68% 的人,且當他們進行匹配時,正確率高達 90%。
Sweeney 當時只需支付 50 美元就能獲得包含數十萬條紀錄的數據集。如今,LLM 可以為每份設定檔以 1 到 4 美元的價格自動進行去匿名化。它們也不需要乾淨、結構化的數據集,並能從平凡的貼文和評論中發現模式。
正如其中一位研究人員所言:
「捫心自問:一組聰明的調查人員能否從您的貼文拼湊出您的身分?如果答案是肯定的,那麼 LLM 代理程式也很可能辦得到,而且這麼做的成本只會愈來愈低。」
透過最小化及加密資料來保護您的隱私
資料匿名化並不夠,因為只要將資訊片段串連起來,仍可能發生重新識別身分的情況。保護自己的最佳方法是最小化您的 數位足跡,讓自己更難被重新識別。
您不必與世隔絕,但應該對分享的內容與方式更加謹慎。以下是一些實用的建議:
劃分您的身分以防止交叉比對
當您在所有平台使用相同的電子郵件和使用者名稱時,您的詳細資料就很容易被整合在一起。為不同的帳號 產生不同的使用者名稱 很簡單,但如果沒有使用 電子郵件別名,為每項服務使用唯一的電子郵件地址可能會是一場噩夢。
別名能建立獨立的位址來將訊息轉寄至您的主收件匣,而不會暴露您真實的電子郵件地址和身分。如果您為每項服務都使用唯一的電子郵件別名,您就能看出洩漏或資料買賣的源頭。
例如,如果您只為 A 公司建立一個別名,稍後卻收到 B 公司傳送至該別名的電子郵件,您就會知道 A 公司共享、出售、外洩了您的位址,或是對該位址失去了控制權。接著您可以停用該別名,而不會影響您的主收件匣或其他別名。
打破慣性以防止可識別的模式
您的詳細資料在各平台之間愈一致,就愈容易建立關於您的唯一設定檔。在可能的情況下,請避免提供不必要的資訊。
例如,使用大致的地理位置而非精確的城市、四捨五入您的年齡,並略過選填欄位。此外,考慮微調您的寫作風格,例如重複的詞組、標點符號或常見的錯字,以限制自動化的身分辨識。
限制您的數位足跡以防止 AI 分析
LLM 可以透過在貼文和文字中尋找模式來識別個人。與您身分綁定的公開內容愈少,可用於分析的素材就愈少。發文時請考慮您揭露了多少個人詳細資料 — 不僅是事實,還包括習慣、觀點和經常提及的主題。請務必在儘可能多的平台上 選擇退出 AI 訓練。
使用端對端加密服務以防止資料收集
加密 不僅能保護資料不受駭客侵害,還能從根本上限縮可被讀取的內容。無法讀取您訊息的電子郵件提供者,就無法掃描您的郵件用於廣告、使用郵件進行 AI 訓練或與仲介商共享洞察。
使用端對端加密的 電子郵件 進行私人通訊、使用安全的 雲端儲存空間 安全地儲存與共享檔案,並使用無日誌的 VPN(新視窗) 來加密您的瀏覽活動 — 這些都能減少您非自願暴露的資料量。
選擇退出資料收集以防止仲介商追蹤
從網際網路上移除個人資訊 是辦得到的,即使是從資料仲介商那裡移除也行,但這需要耐心與毅力。這不會停止未來的資料收集,但能給您一個全新的開始。展望未來,盡可能最小化您的數位足跡並加密資料,將有助於限制被收集的內容。

匿名化並非隱私的保證
核心重點是「匿名化」並不總是代表安全、永久或無法追蹤。您共享的個人資訊愈少、在各平台間的表現愈不具慣性,且對帳號和別名的掌握度愈高,能連結回您身上的訊號就愈少。
您的資料在理論上可能經過匿名化,但最強大的保護始於更早的階段:始於您選擇分享什麼內容、在哪裡分享,以及這些內容與您數位生活其他部分的連結難易度。這也代表您需要對每天使用的服務,以及擁有這些服務的公司更加留心。
Proton 應用程式皆為 開放原始碼、無廣告,且設計旨在避免追蹤或對您的任何資料進行 AI 訓練。憑藉 端對端加密、零存取加密,以及由付費訂閱者社群資助的商業模式,我們不需要剝削您的資料,我們無法讀取絕大部分的內容,而且我們也沒興趣讀取。






