企業がお客様の個人データを匿名化したと言うとき、それはお客様のユーザー情報が永久に消去されたように聞こえます。情報はデータセット内のノイズとなり、警戒を解いても大丈夫なように思えます。しかし、実際はそうではありません。

匿名化されたデータとは、氏名や自宅のアドレスなど、最も明白な個人識別子が削除されたデータのことです。しかし、データベースが相互に接続された現代社会では、一見無関係に見えるわずかな詳細情報を組み合わせるだけで、誰かを特定できてしまいます。

研究(新しいウィンドウ)によると、数百万人のデータセットの中から99.98%の人を特定するには、わずか15個のデータポイントしか必要ありません。さらに、AIがお客様のオンライン活動全体を繋ぎ合わせることで、「匿名」と「特定」の境界線は狭まっています。

データの匿名化が実際に何を意味するのか、そしてプライバシーをより適切に保護するために何ができるのかを見ていきましょう。

データ匿名化とは何ですか?

データの匿名化とは、氏名、メールアドレス、連絡先電話番号、誕生日など、個人を特定できるあらゆる要素をデータポイントから削除する不可逆的なプロセスのことです。その目的は、記録と個人の間のリンクを可能な限り断ち切ることにあります。

しかし、匿名化後も、データにはおおまかな位置、閲覧習慣、年齢層などの間接的な手がかりが依然として含まれています。個々の詳細は一見無害ですが、それらすべてをまとめると、お客様を指し示すパターンが形成されます。

匿名化の仕組みを説明する図

生体認証などの一部のデータ型は、真に匿名化することが特に困難(あるいは不可能)です。安全なユーザー名を作成することはできますが、個人の顔、フィンガープリント、または虹彩パターンを変えることはできません。

データが真に匿名化された場合、GDPRなどのプライバシー法の下では、もはや個人データとはみなされません。つまり、企業は個人データに適用される同意や保護要件なしに、そのデータを利用できる可能性があることを意味します。

しかし、GDPRの前文26(新しいウィンドウ)は高い基準を設定しています。それは、再特定のために合理的に使用されうる他の情報や方法を考慮したとしても、データがもはや個人を特定できない状態でなければならないというものです。したがって、残されたデータが依然として誰かを指し示している場合、氏名やメールアドレスを削除するだけでは不十分です。

匿名化 vs 仮名化

匿名化が個人を追跡できないように識別情報を恒久的に削除するのに対し、仮名化はそのデータをラベル、トークン、またはコードに置き換えます。元のユーザー情報は安全なキーまたはルックアップテーブルに別途保管されますが、適切なアクセス権があれば、そのラベルを実際の人物にリンクさせることができます。

仮名化の例としては、患者名がコードに置き換えられる医学研究があります。研究者は引き続きデータを追跡できますが、キーを持つ権限のある担当者のみが、そのデータを個人に再接続できます。

この違いは単純ですが、重要です。仮名化は依然として誰かにリンクできる可能性があるため、GDPRのような規則の下では個人データとみなされます。対照的に、匿名化されたデータは、再特定が合理的に不可能になった場合にのみ、それらの義務の対象外となります。

一般的なデータ匿名化技術

企業はデータの活用プランに応じて、さまざまな匿名化手法を使用しています。一般的な手法は以下の通りです。

データマスキングは、電話番号を架空の番号に置き換えるなど、情報を偽のデータに置き換えます。

汎用化は、正確な年齢ではなく年齢層を使用するなど、データの具体性を低くします。

データスワッピングは、レコード間で情報をシャッフルし、元の人物と一致しなくなるようにします。

データの摂動は、数値を丸めてデータを変更するなど、データの傾向を維持しながら個別の詳細を不明瞭にします。

合成データは、実際のレコードを直接使用せず、元のデータセットのパターンを模倣した人工データに依存します。

これらの技術はプライバシーリスクを軽減できますが、その効果は適用方法に完全に依存します。たとえ適用されたとしても、個人を特定できるあらゆる手がかりを完全に削除できるわけではありません。

企業が匿名化データをどのように活用するか

匿名化データは、企業がお客様の同意なしに、法的に望むまま利用できるため、非常に価値があります。一般的な用途は以下の通りです。

分析と開発:企業はユーザーの行動を調査して製品を改善し、トレンドを測定し、ビジネス上の意思決定に役立てます。

広告:閲覧や購入のパターンは、たとえ名前が紐付けられていなくても、ターゲット広告のオーディエンスセグメントを構築するために使用されることがあります。

データブローカー:一部のデータは、データブローカーによって集約、パッケージ化、転売されます。これらの企業は、アプリ、ウェブサイト、公的記録、クレジットデータなどの情報を組み合わせて詳細なプロファイルを構築し、法的監視がほとんどない状態で、希望する者に販売します。

AIモデルのトレーニング:ユーザーのアクティビティ、購入したデータセット、公開ソースまたはスクレイピングされたソースから抽出されたデータを含む大規模なデータセットは、AIシステムのトレーニングによく使用されます。

医学研究:一部の(新しいウィンドウ)では、匿名化された医療データが製薬会社に販売されたり、研究者と共有されたりすることがあります。

匿名化データは、サービスの向上や研究のサポートなど、有益な目的で使用されることもあります。問題は、データブローカーや広告主にとって、人々が十分に理解していない、あるいは実質的な同意を得ていない方法で、情報を収集、結合、共有、再パッケージ化、販売する強い商業的インセンティブが生まれることです。後でデータの削除を希望しても、その手続きは簡単ではありません。

カリフォルニア州のプライバシー規制当局がDROP(新しいウィンドウ)システムを構築したのは、何百ものデータブローカーからデータを削除することが、歴史的に個人による管理が困難であったためです。これはAIのトレーニングデータにおいてはさらに困難です。一度データがトレーニング済みモデルに影響を与えると、その削除にはAI企業が消極的な(新しいウィンドウ)マシンアンラーニング(機械的な忘れ学習)(新しいウィンドウ)」技術が必要になる場合があるからです。

データの再識別、またはなぜ匿名化データが真に匿名ではないのか

誰かがお客様に、近所に住んでいて白い車を運転している30代の男性を探していると言ったなら、それが誰を指しているのかすでに見当がついているかもしれません。それらの詳細情報は、単独では個人を特定できませんが、複数を組み合わせることで、他のすべての人を排除し、可能性を絞り込むのに役立ちます。匿名化データも同じように機能します。名前や連絡先の詳細が削除されていても、十分な詳細情報が組み合わされると、残りの情報から正体が明らかになる可能性があります。

これらのパターンをソーシャルメディアや公的記録などの他のソースと照合すると、匿名とされるデータを個人と結びつけることが可能になります。これは「再識別」として知られており、多くの場合、予想以上に容易です。

再識別の仕組みを説明する図

研究者のラターニャ・スウィーニー氏は、人口統計、診断名、請求の詳細などの間接的な識別子を含む病院のデータセット(新しいウィンドウ)を50ドルで購入しました。名前などの直接的な詳細は含まれていませんでした。このデータを、入院に関するローカルニュースの記事と照合した結果、報道されたバイク事故に遭った患者の完全な病歴を含む、患者の43%をレコードと一致させることができました。

AIが非匿名化をより速く、より安価にしている

匿名データによる再識別に対する唯一の保護策が、時間、忍耐、そして手動による照合であるならば、その付随的な保護はAIによって崩れつつあります。

研究によると、大規模言語モデル(LLM)は、プラットフォーム全体で誰かの投稿を分析し、公開情報を照合して、驚異的な精度で匿名ユーザーを特定できることが示されています。大規模な非匿名化に関するある研究(新しいウィンドウ)では、LLMベースの手法で最大68%の人物を特定し、一致させた場合の正解率は90%に達しました。

スウィーニー氏が数十万件のレコードが含まれるデータセットに支払った額は、わずか50ドルでした。今日では、LLMは1件あたり1〜4ドルでプロファイルを自動的に非匿名化できます。また、クリーンで構造化されたデータセットを必要とせず、通常の投稿やコメントからパターンを見つけ出すことも可能です。

研究者の1人が次のように述べています。

「自問してみてください。賢い調査チームがお客さまの投稿からお客さまが誰であるかを特定できるでしょうか。もし可能なら、LLMエージェントも同様のことが可能であり、そのコストは下がる一方です。」

データの最小化と暗号化によってプライバシーを保護する

情報の点と点が結びつくと再特定が行われる可能性があるため、データの匿名化だけでは不十分です。お客様自身を守る最善の方法は、デジタルフットプリントを最小化し、再特定を困難にすることです。

インターネットを完全に遮断する必要はありませんが、何をどのように共有するかについてより慎重になる必要があります。以下にいくつかの実践的なヒントを挙げます。

相互参照から保護するためにユーザー情報を区画化する

すべてのプラットフォームで同じメールアドレスとユーザー名を使用していると、詳細情報をまとめやすくなります。異なるアカウントごとに異なるユーザー名を生成するのは簡単ですが、メールエイリアスを使用しない限り、すべてに固有のメールアドレスを使用するのは非常に困難な作業になります。

エイリアスは、実際のメールアドレスやユーザー情報を公開することなく、メインの受信トレイにメッセージを転送する別の別名アドレスを作成します。サービスごとに固有のメールエイリアスを使用すれば、漏洩防止や販売がどこから発生したかを確認できます。

例えば、A社専用のエイリアスを1つ作成し、後にB社からそのエイリアス宛にメールが届いた場合、A社がお客様のアドレスを共有、販売、漏洩させたか、管理できなくなったことがわかります。その場合、メインの受信トレイや他のエイリアスに影響を与えることなく、そのエイリアスを無効化できます。

特定可能なパターンから保護するために非一貫性を保つ

プラットフォームを越えて詳細情報の一貫性が高いほど、お客様に関する独自のプロファイルを構築しやすくなります。可能な限り、必要以上の情報を提供しないようにしてください。

例えば、正確な市区町村名の代わりに大まかな場所を使用したり、年齢を四捨五入したり、任意入力フィールドをスキップしたりします。また、自動化された識別を制限するために、繰り返されるフレーズ、句読点、よくあるタイプミスなど、文章のスタイルに小さな変化を加えることも検討してください。

AI分析から保護するためにデジタルフットプリントを制限する

LLMは、投稿や文章のパターンを見つけることで個人を特定できます。ユーザー情報に紐づく公開コンテンツが少なければ少ないほど、分析対象となる材料も少なくなります。投稿する際に、事実だけでなく、習慣、意見、繰り返し話題にするトピックなど、お客様を際立たせる個人情報をどの程度開示しているかを考慮してください。可能な限り多くのプラットフォームでAIトレーニングをオプトアウトするようにしてください。

データ収集から保護するためにエンドツーエンド暗号化サービスを使用する

暗号化は単にハッカーからデータを保護するだけでなく、そもそも読み取れる内容を制限します。お客様のメッセージを読み取ることができないメールプロバイダーは、メッセージを広告目的でスキャンしたり、AIトレーニングに使用したり、ブローカーとインサイトを共有したりすることはできません。

プライベートな通信にはエンドツーエンド暗号化済みメールを使用し、ファイルの安全な保存と共有には安全なクラウドストレージを使用し、閲覧アクティビティを暗号化するにはログなしのVPN(新しいウィンドウ)を使用してください。これらはすべて、意図せず公開されるデータの量を削減します。

データブローカーから保護するためにデータ収集をオプトアウトする

データブローカーからであっても、インターネットから個人情報を削除することは可能ですが、それには根気が必要です。将来のデータ収集を止めることはできませんが、新しいスタートを切ることはできます。今後、デジタルフットプリントを最小化し、可能な限りデータを暗号化することは、収集される情報を制限するのに役立ちます。

より匿名性を高める方法を説明する図

匿名化はプライバシーを保証するものではありません

重要なポイントは、「匿名化されている」ことが必ずしも安全、恒久的、または追跡不可能であることを意味するわけではないということです。共有する個人情報が少なく、プラットフォーム間での一貫性が低く、アカウントやエイリアスに対する制御を維持できているほど、お客様に結びつくシグナルは少なくなります。

お客様のデータは書類上は匿名化されているかもしれませんが、最も強力な保護はその前の段階から始まります。つまり、何をどこで共有することを選択するか、そしてそれがお客様のデジタルの生活の他の部分とどれほど簡単に接続できるかです。それはまた、毎日使用するサービスやそれらを所有する企業について、意図を持って選択することを意味します。

Protonのアプリはオープンソースであり、広告はなく、いかなるデータに対してもトラッキングやAIトレーニングを回避するように設計されています。エンドツーエンド暗号化ゼロアクセス暗号化、そして有料サブスクライバーのコミュニティのみによって資金提供されているビジネスモデルにより、当社はお客様のデータを悪用する必要はなく、データの大部分を読み取ることもできません。そして、読み取りたいとも思いません。