AIプライバシーの懸念：個人データはどの程度露出しているのか？

よくある誤解は、チャット用のChatGPT、画像生成用のMidjourney、動画生成用のSoraなどの大規模言語モデル（LLM）を使用しなければ、人工知能（AI）から安全であるというものです。使用するかどうかにかかわらず、AIはすでにあなたの生活に関わっています。

たとえば、Androidで写真を撮ると、Googleフォトは顔認識を使用して写真ライブラリ内のすべての人物を自動的にスキャンし、ラベルを付けます。デフォルト設定を変更せずにソーシャルメディアに投稿すると、LLMのトレーニングに使用される大量のデータセットにスクレイピングされる可能性のある公開投稿が作成されます。ウェブサイトやアプリ内のパーソナライズされた広告でさえ、あなたのブラウジングやショッピングの設定でトレーニングされたAIによって動いています。

その利便性はプライバシーを犠牲にし、あなたの生活に深い影響を与える可能性があります。子供のソーシャルフィードから取得した20枚の写真があれば、恐喝、いじめ、ユーザー情報の盗難に使用できる30秒のディープフェイク動画を作成するのに十分です。

AIが個人データにアクセスできる場合に何が問題になるのか、そしてオンラインでプライバシーを保護するために何ができるのかを以下に示します。

AIはどのようにプライバシーを危険にさらしているのか？
AIシステムからデータをプライベートに保つ方法

AIはどのようにプライバシーを危険にさらしているのか？

AIは、過剰な収集、過剰な推論、過剰な共有によってプライバシーを侵害する可能性があります。

個人データが収集される可能性がある

AIシステムは、Facebookの投稿(新しいウィンドウ)、Flickrの写真(新しいウィンドウ)、Redditのスレッド(新しいウィンドウ)など、公開されているソースからスクレイピングされた大量のデータでトレーニングすることで、より正確になります。何気ないソーシャルメディアの投稿、家族の写真、プロフィールの詳細（多くの場合、機密情報を含み、元々は個人的または社会的な理由で共有されたもの）が、数十億ドル規模のLLMや顔認識システムのトレーニングに使用されるデータセットに含まれています。これは、巨大IT企業がオンラインコンテンツを、明確な同意や知的財産への配慮なしに、AIの使用のために自由に利用できるものとして扱っているために起こります。

再識別される可能性がある

テクノロジー企業は、非識別化または仮名化（名前や電話番号などの明らかな識別子が取り除かれること）された個人データは、あなたに遡ることができないと主張しています。しかし、匿名化されたデータセットは、ソーシャルメディアのプロフィールや地理位置情報の痕跡などの他のデータソースと照合することで再識別できるため、この保護は脆弱です。

たとえば、Netflixユーザーは、匿名の映画評価とIMDb情報を比較することで再識別されました(新しいウィンドウ)。ある研究(新しいウィンドウ)では、わずか15の人口統計学的マーカーがあれば、あらゆるデータセットでほぼすべてのアメリカ人を特定できることが示されています。AIのパターンマッチング能力を加えると、再識別はより速く、より簡単に、誰にでもアクセスできるようになりました。

データが第三者と共有される可能性がある

AIシステムを使用する場合、データは常にサインアップした会社に残るとは限りません。パートナーやサードパーティの処理業者（聞いたこともないような業者も含まれる可能性があります）と共有されることがあり、彼らは独自の条件とセキュリティ基準の下でデータを扱う可能性があります。

その時点で、プライバシーは信頼の問題になります。もはや情報を保護するために知っている会社に頼るだけでなく、独自のインフラ、ポリシー、脆弱性を持つ未知の外部アクターの連鎖全体に頼ることになります。あなたのデータに触れる手が増えるたびに攻撃対象領域が広がり、責任の所在が曖昧になります。

たとえば、OpenAIのパートナーが関与した侵害では、APIユーザーデータが露出し、サードパーティのアクセスがシステムの中で最も弱いリンクになり得ることが示されました。

データ削除要求が機能しない可能性がある

一度データがAIモデルのトレーニングに使用されると、モデルの全体的な動作を形成するため、それを取り戻すことはほぼ不可能です。マシンアンラーニング（モデルに忘れさせる技術）はまだ初期段階にあるため、現在の唯一の選択肢はモデルを再トレーニングすることです。また、企業がデータ削除要求に応じたと主張しても、事実上それを確認する方法はありません(新しいウィンドウ)。

他人があなたのプライベートなチャットを見る可能性がある

ChatGPT(新しいウィンドウ)、Meta AI(新しいウィンドウ)、Grok(新しいウィンドウ)などのLLMは、共有機能を通じてプライベートな会話を露出させており、チャットは検索エンジンによってインデックス化され、公に発見可能になっていました。プラットフォームはこのリスクについて十分に透明性を確保していなかったため、ユーザーはプライベートなやり取りだと思っていたものが、インターネット上の誰にでも見られる状態になってしまう可能性があることに気づいていませんでした。

不当な扱いを受ける可能性がある

AIシステムがパターンを学習するために使用するデータに、歴史的な不平等や不完全なデータセットなどの隠れたバイアスが含まれている場合、AIはそのパターンを強化または増幅する可能性があります。巨大IT企業の非プライベートなAIシステムではリスクが高くなります。これらはクローズドソースであり、独立してレビューできないブラックボックスとして動作するためです。これらのシステムは、人種、性別、郵便番号などの機密性の高い属性を使用して、予測的ポリシング(新しいウィンドウ)、採用(新しいウィンドウ)、医療(新しいウィンドウ)、またはクレジットスコアリング(新しいウィンドウ)において自動化された決定を下す可能性があります。

広告のターゲティングがより鋭くなっている

非プライベートなAIはハイパーターゲティングを可能にすることで広告をよりスマートにしますが、多くの場合、家族全員のプライバシーを侵害します。たとえば、データブローカーであり世界最大の広告会社であるPublicisは、23億人のプロフィールを作成し、家族の設定や収入(新しいウィンドウ)などの詳細を追跡して、格安製品をターゲットにするかプレミアム製品をターゲットにするかを決定していると主張しています。

AIチャットボットが従来の検索に取って代わるにつれて、広告もこの新しいスペースに追随しています。たとえば、PerplexityはAI生成の回答に広告を埋め込んでおり(新しいウィンドウ)、Google Chromeを買収するために345億ドルの入札を行いました。これは、ブラウザの30億人以上のユーザーとそれに伴う詳細な行動データへのアクセスを獲得することを目的とした動きです。

クラウドストレージがデータを露出させる可能性がある

エンドツーエンド暗号化（E2EE）のないクラウドストレージプロバイダーは、アップロードした写真、ドキュメント、機密ファイルにアクセスできます。また、そのデータを使用してAIツールを動かしたり、あなたに関するインサイトを生成したり、パーソナライズされた広告を表示したりする可能性もあります。

たとえば、Googleドライブはデータへのアクセスを保持し、GoogleドキュメントのスペルチェックやオートコンプリートなどのAI機能に使用しています。GoogleのAIアシスタントであるGeminiがGoogle Workspaceと緊密に統合されたままであれば、ドライブファイルに関するクエリもAIトレーニングに供給される可能性があります。

同様に、Microsoftは、Word、Excel、PowerPointが間もなくデフォルトでOneDriveに自動保存されるようになると発表しました。これも非E2EEサービスであり、広告やAIトレーニングのためのデータの将来の使用は不透明なままです。

AIは間違いを犯す可能性がある

自動化されたシステムは、あなたのプライベートな通信をスキャンし、疑わしいとしてフラグを立てる可能性があります。EUの提案するチャット規制法は、WhatsAppやSignalなどのメッセージングサービスに対し、AIを使用してすべてのプライベートメッセージと写真をスキャンし、児童性的虐待資料（CSAM）を検出することを義務付けるものです。

しかし、これは犯罪の疑いがある人だけでなく、すべての人の会話を監視することを意味します。そして歴史は、AIがいかに簡単に間違いを犯すかを示しています。たとえば、ある父親のGoogleアカウントは、子供の写真を医師に送信した後、停止され(新しいウィンドウ)、当局に通報されました。あなたと医師の間、あるいはあなたと家族の間にとどめておくべきことが、突然テクノロジー企業や法執行機関に露出される可能性があります。

誰でもディープフェイクを作成できる

AI can be used to create deepfakes — highly realistic fake photos, videos, or audio. For example, someone could take your social media photos and create a video of you saying or doing things you never did.

悪意のあるアクターは、ユーザー情報の盗難、詐欺、恐喝、または評判の毀損にディープフェイクを悪用しており、そのリスクは子供たちにも及んでいます。2019年、犯罪者たちはディープフェイク音声を使用してCEOの声を模倣し(新しいウィンドウ)、従業員を騙して22万ユーロを送金させました。リスクは子供たちにも広がっています。ある事件では、捕食者が14歳のディープフェイク画像(新しいウィンドウ)を作成し、それを共有すると脅して金銭をゆすり取ろうとしました。

AIシステムからデータをプライベートに保つ方法

AIシステム、特に巨大IT企業が運営する非プライベートでクローズドソースのモデルには、多くのプライバシーの懸念があります。そして、一度データが出てしまえば、これらのシステムがデータをスクレイピングしたり悪用したりするのを完全に防ぐことはできませんが、フットプリントを減らし、説明責任を要求し、データを悪用しないプライバシー重視のAIを選択することはできます。できることは以下のとおりです。

ソーシャルメディアでは、プロフィールと投稿をプライベートにし、古いアップロードを削除し、共有する前に写真からEXIFデータを取り除き、住所、子供のフルネーム、通っている学校などの識別可能な詳細を共有しないようにします。家族のためにインターネットを管理する方法について詳しく調べてください。
アプリのプライバシー設定を確認してください。たとえば、Meta AIは、AndroidおよびiOS用のFacebookアプリでカメラロールの写真や動画をスキャンしている可能性があります。
オンラインに写真を投稿する前に、家族の顔をぼかしたり黒塗りしたりして、ディープフェイクから保護してください。
仮想プライベートネットワーク（VPN）(新しいウィンドウ)を使用してIPアドレスを隠し、デジタルフットプリントをマスクします。また、自分に遡られたくない機密情報を投稿する場合は、エイリアスを使用してメールアドレスを保護してください。
安全なメッセージングのためのSignalや、プライベートブラウジングのためのBraveやDuckDuckGoなど、データを収益化しないプライバシー重視のサービスを使用してください。
プライベートな写真や機密ドキュメントなど、最も機密性の高いファイルを安全に保管するには、エンドツーエンド暗号化されたクラウドストレージであるProton Driveを使用してください。プライベートとされるコンテンツを露出させる可能性のあるプラットフォームとは異なり、Proton Driveはデータをスキャン、インデックス化、またはAIトレーニングに使用することはありません。また、共有することを選択した場合でも、他の誰もデータを見ることはできません。写真を真にプライベートに保つことは、ディープフェイクの作成に悪用される可能性のあるオンライン上に写真が出回らないことも意味します。
Gemini、ChatGPT(新しいウィンドウ)、Claude(新しいウィンドウ)、またはMeta AIなどで、可能な限りAIトレーニングをオプトアウトしてください。ポリシーはほとんど警告なしに一夜にして変更される可能性があるため、AIとプライバシーの両方の利点を享受したい場合は、ログを保持せず、データでトレーニングを行わないプライバシー重視のAIアシスタント(新しいウィンドウ)であるLumoに切り替えてください。

インターネットユーザーに力を取り戻すには、EUのAI法(新しいウィンドウ)のようなAIプライバシーに関するより強力な規制が不可欠です。それまでは、オンラインで共有するものに注意を払い、これらのシステムを構築している企業に説明責任を求め、最初からプライバシーを尊重する透明性のあるAIツール(新しいウィンドウ)を選択することが最善の防御策です。