L'anonymisation des données ne vous rend pas anonyme. Voici pourquoi.

Lorsque les entreprises affirment que vos données personnelles sont anonymisées, on a l’impression que votre identité en ligne est définitivement effacée. Vos informations deviennent un bruit de fond dans un ensemble de données, de sorte que vous pouvez baisser votre garde. Eh bien, pas tout à fait.

Les données anonymisées sont des données dont les identifiants personnels les plus évidents ont été retirés, comme le nom ou l’adresse personnelle. Mais dans un monde rempli de bases de données interconnectées, il suffit de quelques informations apparemment sans lien pour retrouver quelqu’un.

Des recherches(nouvelle fenêtre) ont montré que seulement 15 points de données sont nécessaires pour identifier 99,98 % des personnes dans un ensemble de données de plusieurs millions. Et avec l’IA qui connecte les points à travers votre activité en ligne, l’écart entre « anonyme » et « identifié » se réduit.

Examinons ce que signifie réellement l’anonymisation des données et ce que vous pouvez faire pour mieux protéger votre respect de la vie privée.

Qu’est-ce que l’anonymisation des données ?
Anonymisation vs pseudonymisation
Techniques courantes d’anonymisation des données
Comment les entreprises utilisent les données anonymisées
Réidentification des données, ou pourquoi les données anonymisées ne sont pas vraiment anonymes
L’IA rend la désanonymisation plus rapide et moins coûteuse
Protégez votre respect de la vie privée en réduisant et en chiffrant les données
L’anonymisation n’est pas une garantie pour le respect de la vie privée

Qu’est-ce que l’anonymisation des données ?

L’anonymisation des données est le processus irréversible consistant à retirer tout élément personnellement identifiable des points de données, tels que votre nom, votre adresse e-mail, votre numéro de téléphone ou votre date de naissance. L’objectif est de rompre autant que possible le lien entre un enregistrement et une personne.

Toutefois, après l’anonymisation, les données comprennent encore des indices indirects, tels que votre emplacement général, vos habitudes de navigation et votre tranche d’âge. Individuellement, ces informations sont assez inoffensives, mais prises dans leur ensemble, elles forment un modèle qui pointe vers vous.

Un schéma expliquant le fonctionnement de l'anonymisation

Certains types de données, comme les données biométriques, sont particulièrement difficiles (voire impossibles) à véritablement anonymiser. Vous pouvez créer un nom d’utilisateur sûr, mais pas changer le visage d’une personne, son empreinte digitale ou la structure de son iris.

Lorsque les données sont véritablement anonymisées, elles ne sont plus considérées comme personnelles en vertu des lois sur le respect de la vie privée telles que le RGPD. Cela signifie que les entreprises peuvent les utiliser sans les exigences de consentement et de protection qui s’appliquent aux données personnelles.

Mais le considérant 26 du RGPD(nouvelle fenêtre) place la barre très haut : les données ne doivent plus permettre d’identifier une personne, même en tenant compte d’autres informations et méthodes qui pourraient raisonnablement être utilisées pour les réidentifier. Ainsi, retirer les noms ou les adresses e-mail n’est pas suffisant si les données restantes pointent toujours vers quelqu’un.

Anonymisation vs pseudonymisation

Alors que l’anonymisation retire définitivement les informations identifiables pour garantir qu’elles ne peuvent pas être liées à un individu, la pseudonymisation remplace ces données par un label, un jeton ou un code. L’identité originale est stockée séparément dans une clé sécurisée ou une table de correspondance, mais avec l’accès approprié, ce label peut être lié à une personne réelle.

La recherche médicale est un exemple de pseudonymisation, où les noms des patients sont remplacés par des codes. Les chercheurs peuvent toujours suivre les données, mais seul le personnel autorisé disposant de la clé peut les reconnecter à l’individu.

Cette différence est simple mais importante. La pseudonymisation est considérée comme une donnée personnelle en vertu de réglementations telles que le RGPD, car elle peut toujours être liée à quelqu’un. Les données anonymisées, en revanche, ne relèvent plus de ces obligations uniquement lorsque la réidentification n’est plus raisonnablement possible.

Techniques courantes d’anonymisation des données

Les entreprises utilisent différentes méthodes d’anonymisation selon la manière dont elles prévoient d’utiliser les données. En voici quelques-unes parmi les plus courantes :

Le masquage des données remplace les informations par des données fictives, comme le fait d’échanger un numéro de téléphone contre un numéro imaginaire.

La généralisation rend les données moins précises, comme l’utilisation de tranches d’âge plutôt qu’un âge exact.

L’échange de données mélange les informations entre plusieurs dossiers afin qu’elles ne correspondent plus à la personne d’origine.

La perturbation de données dissimule les détails individuels tout en préservant les tendances des données, par exemple en modifiant les données par l’arrondissement des nombres.

Les données synthétiques reposent sur des données artificielles qui imitent les modèles de l’ensemble de données original sans utiliser directement de véritables dossiers.

Ces techniques peuvent réduire les risques pour le respect de la vie privée, mais leur efficacité dépend entièrement de la manière dont elles sont appliquées. Même dans ce cas, elles pourraient ne pas supprimer tous les indices permettant d’identifier quelqu’un.

Comment les entreprises utilisent les données anonymisées

Les données anonymisées sont précieuses car les entreprises peuvent légalement les utiliser comme elles le souhaitent, sans votre consentement. Les utilisations courantes incluent :

Analyses et développement : les entreprises étudient le comportement de l’utilisateur pour améliorer les produits, mesurer les tendances et orienter les décisions commerciales.

Publicité : les habitudes de navigation et d’achat peuvent être utilisées pour construire des segments d’audience pour des publicités ciblées, même sans que votre nom y soit associé.

Courtiers en données : certaines données sont agrégées, regroupées et revendues par des courtiers en données. Ces entreprises combinent des informations provenant d’applications, de sites internet, de registres publics, de données de crédit et plus encore pour construire des profils détaillés qui sont vendus à quiconque le souhaite, avec peu de surveillance légale.

Entraînement de modèles d’IA : de grands ensembles de données sont souvent utilisés pour entraîner des systèmes d’IA, y compris des données tirées de l’activité de l’utilisateur, des ensembles de données achetés et des sources publiques ou récupérées par extraction de données.

Recherche médicale : dans certains pays(nouvelle fenêtre), les données médicales anonymisées peuvent être vendues à des sociétés pharmaceutiques ou partagées avec des chercheurs.

Les données anonymisées peuvent être utilisées à bon escient, par exemple pour améliorer des services ou soutenir la recherche. Le problème est que cela crée une forte incitation commerciale pour les courtiers en données et les annonceurs à collecter, combiner, partager, reconditionner et vendre des informations sur les personnes, souvent d’une manière qu’elles ne comprennent pas pleinement ou à laquelle elles ne consentent pas de manière éclairée. Pour les personnes qui décident ultérieurement de se retirer, retirer leurs données n’est pas simple.

Le régulateur californien de la protection de la vie privée a créé le système DROP(nouvelle fenêtre) car supprimer des données auprès de centaines de courtiers en données a historiquement été difficile à gérer pour les individus. C’est beaucoup plus difficile avec les données d’entraînement d’IA, car une fois que les données ont influencé un modèle entraîné, les retirer peut nécessiter des techniques de machine unlearning(nouvelle fenêtre) (désapprentissage automatique) pour lesquelles les entreprises d’IA ne montrent aucun intérêt(nouvelle fenêtre).

Réidentification des données, ou pourquoi les données anonymisées ne sont pas vraiment anonymes

Si quelqu’un vous dit qu’il cherche un homme d’une trentaine d’années qui conduit une voiture blanche et vit dans votre quartier, vous avez peut-être déjà une bonne idée de qui il s’agit. Aucune de ces informations ne peut identifier séparément la personne, mais ensemble, elles aident à restreindre les possibilités en excluant tous les autres. Les données anonymisées fonctionnent de la même manière : même si les noms et les informations du contact sont retirés, les informations restantes peuvent toujours devenir révélatrices lorsque suffisamment de détails sont combinés.

Lorsque ces modèles sont recoupés avec d’autres sources, telles que les réseaux sociaux ou les registres publics, il devient possible de connecter des données censées être anonymes à une personne. C’est ce qu’on appelle la réidentification, et c’est souvent plus facile que vous ne le pensez.

Un diagramme expliquant le fonctionnement de la réidentification

La chercheuse Latanya Sweeney a acheté un ensemble de données hospitalières(nouvelle fenêtre) pour 50 $ qui contenait des identifiants indirects, tels que des données démographiques, des diagnostics et des informations de facturation. Les informations révélatrices telles que les noms n’étaient pas incluses. En recoupant ces données avec des articles de presse locale sur les hospitalisations, elle a pu faire correspondre 43 % des patients à leurs dossiers, y compris l’historique médical complet d’un patient impliqué dans un accident de moto signalé.

L’IA rend la désanonymisation plus rapide et moins coûteuse

Si la seule protection contre la réidentification à partir de données anonymes est le temps, la patience et le recoupement manuel, cette protection accessoire s’érode avec l’IA.

La recherche montre que les grands modèles de langage (LLM) peuvent analyser les publications d’une personne sur différentes plateformes, recouper les informations publiques et identifier des utilisateurs anonymes avec une précision incroyable. Dans une étude sur la désanonymisation à grande échelle(nouvelle fenêtre), les méthodes basées sur les LLM ont identifié jusqu’à 68 % des personnes et, lorsqu’elles trouvaient une correspondance, elles avaient raison dans 90 % des cas.

Sweeney n’a dû payer que 50 $ pour un ensemble de données de centaines de milliers de dossiers. Aujourd’hui, les LLM peuvent désanonymiser des profils pour 1 à 4 $ chacun et effectuer le travail automatiquement. Ils n’ont pas non plus besoin d’ensembles de données propres et structurés et peuvent repérer des modèles dans des publications et des commentaires ordinaires.

Comme le dit l’un des chercheurs :

« Demandez-vous : une équipe d’enquêteurs intelligents pourrait-elle découvrir qui vous êtes à partir de vos publications ? Si la réponse est oui, les agents de LLM peuvent probablement faire de même, et le coût pour y parvenir ne cesse de baisser. »

Protégez votre respect de la vie privée en réduisant et en chiffrant vos données

Anonymiser les données ne suffit pas, car la réidentification peut se produire lorsque les points sont reliés entre eux. Le meilleur moyen de vous protéger est de réduire votre empreinte numérique, afin de vous rendre plus difficile à réidentifier.

Vous n’avez pas besoin de disparaître de la circulation, mais vous devriez être plus réfléchi sur ce que vous partagez et sur la manière dont vous le faites. Voici quelques conseils pratiques :

Compartimentez votre identité pour vous protéger contre le recoupement d’informations

Lorsque vous utilisez la même adresse e-mail et le même nom d’utilisateur sur toutes les plateformes, il est facile de regrouper vos informations. Il est simple de générer différents noms d’utilisateur pour différents comptes, mais utiliser des adresses e-mail uniques pour tout peut être un cauchemar, à moins d’utiliser des alias d’adresse e-mail.

Les alias créent des adresses distinctes qui transfèrent les messages vers votre boîte de réception principale sans exposer votre véritable adresse e-mail et votre identité. Si vous utilisez un alias d’adresse e-mail unique pour chaque service, vous pouvez voir d’où provient une fuite ou une vente.

Par exemple, si vous créez un alias uniquement pour l’entreprise A et que vous recevez plus tard des messages sur cet alias de la part de l’entreprise B, vous savez que l’entreprise A a partagé, vendu, divulgué ou perdu le contrôle de votre adresse. Vous pouvez alors désactiver cet alias sans affecter votre boîte de réception principale ou vos autres alias.

Soyez incohérent pour vous protéger contre les schémas identifiables

Plus vos informations sont cohérentes d’une plateforme à l’autre, plus il est facile de construire un profil unique autour de vous. Dans la mesure du possible, évitez de donner plus d’informations que nécessaire.

Par exemple, utilisez un emplacement général au lieu de votre ville exacte, arrondissez votre âge et ignorez les champs facultatifs. Pensez également à apporter de petites variations à votre style d’écriture, comme des phrases répétées, la ponctuation ou des fautes de frappe courantes, afin de limiter l’identification automatisée.

Limitez votre empreinte numérique pour vous protéger contre l’analyse par l’IA

Les LLM peuvent identifier des personnes en trouvant des schémas dans les publications et l’écriture. Moins il y a de contenu public lié à votre identité, moins il y a de matière à exploiter. Réfléchissez au nombre d’informations personnelles que vous révélez lorsque vous publiez — pas seulement des faits, mais aussi des habitudes, des opinions et des sujets récurrents qui vous distinguent. Assurez-vous de refuser l’entraînement de l’IA sur autant de plateformes que possible.

Utilisez des services chiffrés de bout en bout pour vous protéger contre la collecte de données

Le chiffrement ne protège pas seulement les données contre les pirates, il limite aussi ce qui peut être lu dès le départ. Un fournisseur de messagerie électronique qui ne peut pas lire vos messages ne peut pas les scanner à des fins publicitaires, les utiliser pour l’entraînement de l’IA ou partager des informations avec des courtiers en données.

Utilisez une messagerie chiffrée de bout en bout pour vos communications privées, un espace de stockage cloud sécurisé pour stocker et partager vos fichiers en toute sécurité, et un VPN(nouvelle fenêtre) sans journaux pour chiffrer votre activité de navigation — tout cela permet de réduire la quantité de données que vous exposez involontairement.

Refusez la collecte de données pour vous protéger contre les courtiers en données

Il est possible de retirer des informations personnelles d’Internet, même auprès des courtiers en données, mais cela demande de la persévérance. Cela n’arrêtera pas la collecte de données future, mais cela peut vous permettre de repartir sur de nouvelles bases. À l’avenir, le fait de réduire votre empreinte numérique et de chiffrer vos données dès que possible aidera à limiter ce qui est collecté.

Un diagramme expliquant comment devenir plus anonyme

L’anonymisation n’est pas une garantie de respect de la vie privée

Le point essentiel à retenir est que le terme « anonymisé » ne signifie pas toujours sûr, permanent ou impossible à tracer. Moins vous partagez d’informations personnelles, moins vous êtes cohérent d’une plateforme à l’autre et plus vous gardez le contrôle sur vos comptes et vos alias, moins il y a de signaux permettant de remonter jusqu’à vous.

Vos données sont peut-être anonymisées sur le papier, mais votre protection la plus forte commence avant ce stade : par ce que vous choisissez de partager, l’endroit où vous le faites et la facilité avec laquelle ces informations peuvent être reliées au reste de votre vie numérique. Cela signifie également être attentif aux services que vous utilisez chaque jour et aux entreprises qui les possèdent.

Les applications Proton sont open source, sans publicité et conçues pour éviter le suivi et l’entraînement de l’IA sur vos données. Avec le chiffrement de bout en bout, le chiffrement à accès zéro et un modèle économique exclusivement financé par notre communauté d’abonnés, nous n’avons pas besoin d’exploiter vos données, nous ne pouvons pas en lire la majeure partie — et nous ne le voulons pas.

Anonymisation expliquée : si vos données sont anonymes, pourquoi les annonceurs peuvent-ils toujours vous cibler ?