Datenanonymisierung macht dich nicht anonym. Hier erfährst du, warum.

Wenn Unternehmen sagen, dass deine personenbezogenen Daten anonymisiert wurden, klingt das so, als ob deine Online-Identität für immer weggewischt wurde. Deine Informationen werden zu Rauschen in einem Datensatz, sodass du unbesorgt sein kannst. Nun ja, nicht ganz.

Anonymisierte Daten sind Daten, bei denen die offensichtlichsten personenbezogenen Identifikatoren wie Name oder Wohnadresse entfernt wurden. Aber in einer Welt voller vernetzter Datenbanken braucht es nur eine Handvoll scheinbar nicht zusammenhängender Details, um jemanden aufzuspüren.

Untersuchungen(neues Fenster) haben gezeigt, dass nur 15 Datenpunkte erforderlich sind, um 99,98 % der Personen in einem Datensatz von Millionen zu identifizieren. Und da KI die Zusammenhänge zwischen deinen Online-Aktivitäten herstellt, schrumpft die Lücke zwischen „anonym“ und „identifiziert“ immer weiter.

Schauen wir uns einmal an, was Datenanonymisierung eigentlich bedeutet und was du tun kannst, um deine Privatsphäre besser zu schützen.

Was ist Datenanonymisierung?
Anonymisierung vs. Pseudonymisierung
Gängige Techniken zur Datenanonymisierung
Wie Unternehmen anonymisierte Daten verwenden
Daten-Reidentifizierung, oder warum anonymisierte Daten nicht wirklich anonym sind
KI macht die Deanonymisierung schneller und billiger
Schütze deine Privatsphäre durch Datenminimierung und -verschlüsselung
Anonymisierung ist keine Garantie für Privatsphäre

Was ist Datenanonymisierung?

Datenanonymisierung ist der unumkehrbare Prozess, bei dem alle persönlich identifizierbaren Informationen aus Datenpunkten entfernt werden, wie z. B. dein Name, deine E-Mail-Adresse, Telefonnummer oder dein Geburtstag. Ziel ist es, die Verbindung zwischen einem Datensatz und einer Person so weit wie möglich zu kappen.

Nach der Anonymisierung enthalten die Daten jedoch immer noch indirekte Hinweise, wie z. B. deinen ungefähren Standort, Surfgewohnheiten und Altersspanne. Einzeln betrachtet sind diese Details ziemlich harmlos, aber in der Summe bilden sie ein Muster, das auf dich hindeutet.

Ein Diagramm, das erklärt, wie Anonymisierung funktioniert

Einige Arten von Daten, wie biometrische Daten, sind besonders schwierig (oder sogar unmöglich) wirklich zu anonymisieren. Du kannst einen sicheren Benutzernamen erstellen, aber nicht das Gesicht, den Fingerabdruck oder das Irismuster einer Person ändern.

Wenn Daten wirklich anonymisiert sind, gelten sie nach Datenschutzgesetzen wie der DSGVO nicht mehr als personenbezogen. Das bedeutet, dass Unternehmen sie ohne die Einwilligungs- und Schutzanforderungen verwenden dürfen, die für personenbezogene Daten gelten.

Aber Erwägungsgrund 26 der DSGVO(neues Fenster) legt die Messlatte hoch: Daten dürfen eine Person nicht mehr identifizieren, selbst wenn man andere Informationen und Methoden berücksichtigt, die vernünftigerweise zu ihrer Reidentifizierung verwendet werden könnten. Das Entfernen von Namen oder E-Mail-Adressen reicht also nicht aus, wenn die verbleibenden Daten immer noch auf jemanden hindeuten.

Anonymisierung vs. Pseudonymisierung

Während die Anonymisierung identifizierbare Informationen dauerhaft entfernt, um sicherzustellen, dass sie nicht zu einer Person zurückverfolgt werden können, ersetzt die Pseudonymisierung diese Daten durch eine Kategorie, ein Token oder einen Code. Die ursprüngliche Identität wird separat in einem sicheren Schlüssel oder einer Nachschlagetabelle gespeichert, aber mit dem richtigen Zugriff kann diese Kennung wieder mit einer echten Person verknüpft werden.

Ein Beispiel für Pseudonymisierung ist die medizinische Forschung, bei der Patientennamen durch Codes ersetzt werden. Forscher können die Daten weiterhin verfolgen, aber nur autorisiertes Personal mit dem Schlüssel kann die Verbindung zur Einzelperson wiederherstellen.

Dieser Unterschied ist einfach, aber wichtig. Pseudonymisierung wird unter Vorschriften wie der DSGVO als personenbezogene Daten betrachtet, da sie immer noch mit jemandem verknüpft werden kann. Anonymisierte Daten fallen im Gegensatz dazu nur dann nicht mehr unter diese Verpflichtungen, wenn eine Reidentifizierung vernünftigerweise nicht mehr möglich ist.

Gängige Techniken zur Datenanonymisierung

Unternehmen nutzen verschiedene Anonymisierungsmethoden, je nachdem, wie sie ihr Abonnement für die Datennutzung gestalten. Hier sind einige der gängigsten Methoden:

Datenmaskierung ersetzt Informationen durch gefälschte Daten, wie zum Beispiel den Austausch einer Telefonnummer gegen eine fiktive Nummer.

Generalisierung macht Daten weniger spezifisch, indem zum Beispiel Altersgruppen statt eines exakten Alters verwendet werden.

Datenaustausch mischt Informationen über Datensätze hinweg, sodass sie nicht mehr mit der ursprünglichen Person übereinstimmen.

Datenperturbation verschleiert einzelne Details, während Datentrends erhalten bleiben, indem zum Beispiel Daten durch das Runden von Zahlen geändert werden.

Synthetische Daten basieren auf künstlichen Daten, die die Muster des ursprünglichen Datensatzes imitieren, ohne direkt echte Datensätze zu verwenden.

Diese Techniken können Risiken für die Privatsphäre verringern, aber ihre Wirksamkeit hängt ganz davon ab, wie gut man sie anwenden kann. Selbst dann kann es sein, dass sie nicht jeden Hinweis entfernen, der jemanden identifizieren könnte.

Wie Unternehmen anonymisierte Daten nutzen

Anonymisierte Daten sind wertvoll, weil Unternehmen sie rechtlich so nutzen können, wie sie wollen, ohne deine Zustimmung. Zu den gängigen Verwendungszwecken gehören:

Analysen und Entwicklung: Unternehmen untersuchen das Verhalten der Benutzer, um Produkte zu verbessern, Trends zu messen und Geschäftsentscheidungen zu treffen.

Werbung: Surf- und Kaufmuster können verwendet werden, um Zielgruppensegmente für gezielte Werbung zu bilden, selbst wenn kein Name damit verknüpft ist.

Datenhändler: Manche Daten werden von Datenhändlern aggregiert, paketiert und weiterverkauft. Diese Unternehmen kombinieren Informationen aus Apps, Websites, öffentlichen Aufzeichnungen, Guthaben und mehr, um detaillierte Profile zu erstellen, die ohne große rechtliche Aufsicht an jeden verkauft werden, der sie haben möchte.

Training von KI-Modellen: Große Datensätze werden oft zum Trainieren von KI-Systemen verwendet, einschließlich Daten aus Benutzeraktivitäten, gekauften Datensätzen sowie öffentlichen oder gescrapten Quellen.

Medizinische Forschung: In einigen Ländern(neues Fenster) können anonymisierte medizinische Daten an Pharmaunternehmen verkauft oder mit Forschern geteilt werden.

Anonymisierte Daten können für gute Zwecke genutzt werden, etwa zur Verbesserung von Diensten oder zur Unterstützung der Forschung. Das Problem ist, dass sie einen starken kommerziellen Anreiz für Datenhändler und Werbetreibende schaffen, Informationen über Menschen zu sammeln, zu kombinieren, zu teilen, neu zu verpacken und zu verkaufen – oft auf eine Weise, die diese nicht vollständig verstehen oder der sie nicht ausdrücklich zustimmen. Für Menschen, die sich später entscheiden, dass sie das nicht mehr wollen, ist es nicht einfach, ihre Daten zu entfernen.

Die kalifornische Datenschutzbehörde hat das DROP(neues Fenster)-System entwickelt, weil das Löschen von Daten bei Hunderten von Datenhändlern für Einzelpersonen in der Vergangenheit schwierig zu verwalten war. Bei KI-Trainingsdaten ist dies noch viel schwieriger, denn sobald Daten ein trainiertes Modell beeinflusst haben, kann das Entfernen Machine-Unlearning(neues Fenster)-Techniken erfordern, an denen KI-Unternehmen kein Interesse haben(neues Fenster).

Daten-Reidentifizierung oder warum anonymisierte Daten nicht wirklich anonym sind

Wenn dir jemand erzählt, dass er einen Mann in den Dreißigern sucht, der ein weißes Auto fährt und in deiner Nachbarschaft wohnt, hast du vielleicht schon eine gute Vorstellung davon, wer gemeint ist. Keines dieser Details für sich kann die Person identifizieren, aber zusammen helfen sie dabei, die Möglichkeiten einzugrenzen, indem sie alle anderen ausschließen. Anonymisierte Daten funktionieren genauso: Selbst wenn Namen und Kontaktdaten entfernen wurden, können die verbleibenden Informationen dennoch aufschlussreich sein, wenn genügend Details kombiniert werden.

Wenn diese Muster mit anderen Quellen wie sozialen Medien oder öffentlichen Aufzeichnungen abgeglichen werden, wird es möglich, vermeintlich anonyme Daten mit einer Person zu verbinden. Dies wird als Reidentifizierung bezeichnet und ist oft einfacher, als du denkst.

Ein Diagramm, das erklärt, wie Reidentifizierung funktioniert

Die Forscherin Latanya Sweeney kaufte für 50 $ einen Krankenhaus-Datensatz(neues Fenster), der indirekte Identifikatoren wie demografische Daten, Diagnosen und Abrechnungsdetails enthielt. Eindeutige Details wie Namen waren nicht enthalten. Durch den Abgleich dieser Daten mit lokalen Nachrichten über Krankenhauseinweisungen konnte sie 43 % der Patienten ihren Datensätzen zuordnen, einschließlich der vollständigen Krankengeschichte eines Patienten, der in einen gemeldeten Motorradunfall verwickelt war.

KI macht Deanonymisierung schneller und billiger

Wenn der einzige Schutz gegen die Reidentifizierung aus anonymen Daten Zeit, Geduld und manueller Datenabgleich ist, dann schwindet dieser zufällige Schutz durch KI.

Untersuchungen zeigen, dass große Sprachmodelle (LLMs) die Beiträge von jemandem plattformübergreifend analysieren, öffentliche Informationen abgleichen und anonyme Benutzer mit unglaublicher Präzision identifizieren können. In einer Studie zur Deanonymisierung im großen Maßstab(neues Fenster) identifizierten LLM-basierte Methoden bis zu 68 % der Personen, und wenn sie eine Übereinstimmung fanden, lagen sie in 90 % der Fälle richtig.

Sweeney musste nur 50 $ für einen Datensatz mit Hunderttausenden von Datensätzen bezahlen. Heute können LLMs Profile für jeweils 1-4 $ deanonymisieren und diese Arbeit automatisch erledigen. Sie benötigen zudem keine sauberen, strukturierten Datensätze und können Muster in gewöhnlichen Posts und Kommentaren erkennen.

Wie einer der Forscher es ausdrückt:

„Frag dich selbst: Könnte ein Team kluger Ermittler anhand deiner Posts herausfinden, wer du bist? Falls ja, können LLM-Agenten wahrscheinlich dasselbe tun, und die Kosten dafür sinken stetig.“

Schütze deine Privatsphäre, indem du Daten minimierst und verschlüsselst

Anonymisierung von Daten reicht nicht aus, da eine Reidentifizierung möglich ist, wenn die Punkte miteinander verbunden werden. Am besten schützt du dich, indem du deinen digitalen Fußabdruck minimierst, damit du schwerer reidentifiziert werden kannst.

Du musst nicht völlig von der Bildfläche verschwinden, aber du solltest bewusster damit umgehen, was und wie du Dinge teilst. Hier sind einige praktische Tipps:

Trenne deine Identität auf, um dich vor Querverweisen zu schützen

Wenn du auf allen Plattformen dieselbe E-Mail und denselben Benutzernamen verwendest, lassen sich deine Details leicht zusammenfügen. Es ist einfach, verschiedene Benutzernamen für verschiedene Konten zu generieren, aber für alles einzigartige E-Mail-Adressen zu nutzen, kann ein Albtraum sein – außer du verwendest E-Mail-Aliase.

Aliase erstellen separate Adressen, die Nachrichten an deinen Haupt-Posteingang weiterleiten, ohne deine echte E-Mail-Adresse und Identität preiszugeben. Wenn du für jeden Dienst einen eigenen E-Mail-Alias verwendest, kannst du sehen, woher ein Leak oder ein Verkauf stammt.

Wenn du zum Beispiel einen Alias nur für Unternehmen A erstellst und später E-Mails an diesen Alias von Unternehmen B erhältst, weißt du, dass Unternehmen A deine Adresse entweder geteilt, verkauft oder geleakt hat oder die Kontrolle darüber verloren hat. Du kannst diesen Alias dann deaktivieren, ohne deinen Haupt-Posteingang oder deine anderen Aliase zu beeinträchtigen.

Sei inkonsistent, um dich vor identifizierbaren Mustern zu schützen

Je konsistenter deine Details über verschiedene Plattformen hinweg sind, desto einfacher ist es, ein einzigartiges Profil um dich herum aufzubauen. Vermeide es, wo immer möglich, mehr Informationen als nötig anzugeben.

Verwende zum Beispiel einen allgemeinen Standort anstelle deiner genauen Stadt, runde dein Alter und überspringe optionale Felder. Überlege dir auch, kleine Variationen in deinem Schreibstil einzubauen, wie etwa wiederholte Phrasen, Zeichensetzung oder häufige Tippfehler, um eine automatisierte Identifizierung einzuschränken.

Begrenze deinen digitalen Fußabdruck, um dich vor KI-Analysen zu schützen

LLMs können Personen identifizieren, indem sie Muster in Posts und Texten finden. Je weniger öffentliche Inhalte mit deiner Identität verknüpft sind, desto weniger Material steht zur Verfügung. Überlege dir, wie viele persönliche Details du beim Posten preisgibst – nicht nur Fakten, sondern auch Gewohnheiten, Meinungen und wiederkehrende Themen, durch die du auffällst. Achte darauf, das KI-Training auf so vielen Plattformen wie möglich zu deaktivieren.

Nutze Ende-zu-Ende-verschlüsselte Dienste, um dich vor Datenerfassung zu schützen

Verschlüsselung schützt Daten nicht nur vor Hackern, sondern begrenzt auch, was überhaupt gelesen werden kann. Ein E-Mail-Anbieter, der deine Nachrichten nicht lesen kann, kann sie auch nicht für Werbung scannen, für KI-Training nutzen oder Erkenntnisse an Datenhändler weitergeben.

Verwende eine Ende-zu-Ende-verschlüsselte E-Mail für private Kommunikation, einen sicheren Cloud-Speicher, um Dateien sicher zu speichern und zu teilen, und ein No-Logs-VPN(neues Fenster), um deine Browsing-Aktivitäten zu verschlüsseln – all das reduziert die Menge an Daten, die du unfreiwillig preisgibst.

Deaktiviere die Datenerfassung, um dich vor Datenhändlern zu schützen

Es ist möglich, persönliche Informationen aus dem Internet zu entfernen, sogar von Datenhändlern, aber es erfordert Hartnäckigkeit. Es wird künftige Datenerfassungen nicht stoppen, kann dir aber einen Neuanfang ermöglichen. In Zukunft wird die Minimierung deines digitalen Fußabdrucks und die Verschlüsselung deiner Daten, wo immer möglich, dazu beitragen, die Menge der erfassten Daten zu begrenzen.

Ein Diagramm, das erklärt, wie du dich anonymer machen kannst

Anonymisierung ist keine Garantie für Privatsphäre

Die wichtigste Erkenntnis ist, dass „anonymisiert“ nicht immer sicher, dauerhaft oder unmöglich zurückzuverfolgen bedeutet. Je weniger persönliche Informationen du teilst, je inkonsistenter du auf verschiedenen Plattformen bist und je mehr Kontrolle du über deine Konten und Aliase behältst, desto weniger Signale gibt es, die mit dir verknüpft werden können.

Deine Daten mögen auf dem Papier anonymisiert sein, aber dein stärkster Schutz beginnt schon vorher: damit, was und wo du teilst und wie leicht es mit dem Rest deines digitalen Lebens verbunden werden kann. Das bedeutet auch, bei den Diensten, die du täglich nutzt, und den Unternehmen, denen sie gehören, bedacht vorzugehen.

Proton-Apps sind Open Source, werbefrei und so konzipiert, dass Tracking und KI-Training deiner Daten vermieden werden. Mit Ende-zu-Ende-Verschlüsselung, Zero-Access-Verschlüsselung und einem Geschäftsmodell, das ausschließlich von unserer Community aus zahlenden Abonnenten finanziert wird, müssen wir deine Daten nicht ausbeuten, können das meiste davon nicht lesen – und wollen es auch gar nicht.

Anonymisierung erklärt: Wenn deine Daten anonym sind, warum können Werbetreibende dich dann immer noch gezielt ansprechen?