La anonimización de datos no lo hace anónimo. He aquí por qué.

Cuando las empresas dicen que sus datos personales se han anonimizado, parece que su identidad en línea se ha borrado para siempre. Su información se convierte en ruido en un conjunto de datos, por lo que usted puede bajar la guardia. Bueno, no exactamente.

Los datos anonimizados son datos a los que se les han borrado los identificadores personales más obvios, como el nombre o la dirección de su casa. Pero en un mundo lleno de bases de datos interconectadas, solo hace falta un puñado de detalles aparentemente no relacionados para rastrear a alguien.

Las investigaciones(nueva ventana) han mostrado que solo se necesitan 15 puntos de datos para identificar al 99.98 % de las personas en un conjunto de datos de millones. Y con la IA conectando los puntos a través de su actividad en línea, la brecha entre lo “anónimo” y lo “identificado” se está reduciendo.

Echemos un vistazo a lo que significa realmente la anonimización de datos y lo que usted puede hacer para proteger mejor su privacidad.

¿Qué es la anonimización de datos?
Anonimización frente a seudonimización
Técnicas comunes de anonimización de datos
Cómo utilizan las empresas los datos anonimizados
Reidentificación de datos, o por qué los datos anonimizados no son verdaderamente anónimos
La IA está haciendo que la desanonimización sea más rápida y económica
Proteja su privacidad al minimizar y cifrar los datos
La anonimización no es una garantía de privacidad

¿Qué es la anonimización de datos?

La anonimización de datos es el proceso irreversible de borrar cualquier elemento personalmente identificable de los puntos de datos, como su nombre, dirección de correo electrónico, número de contacto o fecha de nacimiento. El objetivo es romper el enlace entre un registro y una persona tanto como sea posible.

Sin embargo, tras la anonimización, los datos siguen incluyendo pistas indirectas, como su ubicación general, hábitos de navegación y rango de edad. Individualmente, estos detalles son bastante inofensivos, pero cuando se toman en conjunto, forman un patrón que apunta hacia usted.

Un diagrama que explica cómo funciona la anonimización

Algunos tipos de datos, como los biométricos, son especialmente difíciles (o incluso imposibles) de anonimizar de verdad. Usted puede crear un nombre de usuario seguro, pero no puede cambiar la cara de una persona, su huella digital o el patrón de su iris.

Cuando los datos se anonimizan de verdad, ya no se consideran personales en virtud de las leyes de privacidad como el GDPR. Esto significa que las empresas pueden utilizarlos sin los requisitos de consentimiento y protección que se aplican a los datos personales.

Pero el Considerando 26 del GDPR(nueva ventana) establece un listón muy alto: los datos ya no deben identificar a una persona, incluso cuando se considere otra información y métodos que razonablemente podrían utilizarse para volver a identificarla. Por lo tanto, borrar nombres o direcciones de correo electrónico no es suficiente si los datos restantes siguen apuntando a alguien.

Anonimización frente a seudonimización

Mientras que la anonimización borra permanentemente la información identificable para garantizar que no se pueda rastrear hasta un individuo, la seudonimización sustituye esos datos por una etiqueta, un token o un código. La identidad original se encuentra almacenada por separado en una clave segura o en una tabla de consulta, pero con el acceso adecuado, esa etiqueta puede volver a vincularse a una persona real.

Un ejemplo de seudonimización es la investigación médica, donde los nombres de los pacientes se sustituyen por códigos. Los investigadores pueden seguir rastreando los datos, pero solo el personal autorizado con la clave puede volver a conectar dichos datos con el individuo.

Esta diferencia es sencilla pero importante. La seudonimización se considera datos personales bajo regulaciones como el GDPR porque aún puede estar vinculada a alguien. Los datos anonimizados, por el contrario, quedan fuera de esas obligaciones solo cuando la reidentificación ya no es razonablemente posible.

Técnicas comunes de anonimización de datos

Las empresas utilizan diferentes métodos de anonimización en función de cómo planifican utilizar los datos. Estos son algunos de los más comunes:

El enmascaramiento de datos sustituye la información por datos ficticios, como cambiar un número de teléfono por uno inventado.

La generalización hace que los datos sean menos específicos, como utilizar rangos de edad en lugar de una edad exacta.

El intercambio de datos mezcla la información entre los registros para que ya no coincidan con la persona original.

La perturbación de datos oculta detalles individuales a la vez que preserva las tendencias de los datos, como cambiar los datos redondeando los números.

Los datos sintéticos se basan en datos artificiales que imitan los patrones del conjunto de datos original sin utilizar directamente registros reales.

Estas técnicas pueden reducir los riesgos para la privacidad, pero su eficacia depende totalmente de lo bien que se apliquen. Aun así, es posible que no eliminen todos los indicios que podrían identificar a alguien.

Cómo utilizan las empresas los datos anonimizados

Los datos anonimizados son valiosos porque las empresas pueden utilizarlos legalmente como quieran, sin su consentimiento. Los usos más comunes incluyen:

Análisis y desarrollo: las empresas estudian el comportamiento de los usuarios para mejorar los productos, medir las tendencias y orientar las decisiones empresariales.

Publicidad: los patrones de navegación y compra pueden utilizarse para crear segmentos de audiencia para anuncios dirigidos, incluso sin que su nombre esté vinculado.

Corredores de datos: algunos datos son agregados, empaquetados y revendidos por corredores de datos. Estas empresas combinan información de aplicaciones, sitios web, registros públicos, datos de crédito y más para crear perfiles detallados que se venden a quien los desee, con escasa supervisión legal.

Entrenamiento de modelos de IA: los conjuntos de datos de gran tamaño se suelen utilizar para entrenar sistemas de IA, incluidos los datos extraídos de la actividad de los usuarios, los conjuntos de datos comprados y las fuentes públicas o extraídas.

Investigación médica: en algunos países(nueva ventana), los datos médicos anonimizados pueden venderse a empresas farmacéuticas o compartirse con investigadores.

Los datos anonimizados pueden utilizarse para fines positivos, como mejorar los servicios o apoyar la investigación. El problema es que esto genera un fuerte incentivo comercial para que los corredores de datos y los anunciantes recopilen, combinen, compartan, vuelvan a empaquetar y vendan información sobre las personas, a menudo de formas que estas no comprenden del todo o a las que no han dado un consentimiento significativo. Para quienes deciden más tarde que quieren excluirse, borrar sus datos no es sencillo.

El organismo regulador de la privacidad de California creó el sistema DROP(nueva ventana) porque eliminar datos de cientos de corredores de datos ha sido históricamente difícil de gestionar para las personas. Esto es mucho más difícil con los datos de entrenamiento de IA, porque una vez que los datos han influido en un modelo entrenado, borrarlos puede requerir técnicas de desaprendizaje automático(nueva ventana) por las que las empresas de IA no muestran interés(nueva ventana).

Reidentificación de datos, o por qué los datos anonimizados no son verdaderamente anónimos

Si alguien le dice que busca a un hombre de unos 30 años que conduce un coche blanco y vive en su barrio, puede que ya tenga una idea clara de a quién se refiere. Ninguno de esos detalles puede identificar a la persona por separado, pero juntos ayudan a estrechar las posibilidades excluyendo a todos los demás. Los datos anonimizados funcionan de la misma manera: aunque se borren los nombres y los detalles de contacto, la información restante puede seguir resultando reveladora cuando se combinan suficientes detalles.

Cuando estos patrones se cruzan con otras fuentes, como las redes sociales o los registros públicos, resulta posible conectar datos supuestamente anónimos con una persona. Esto se conoce como reidentificación y suele ser más fácil de lo que usted espera.

Un diagrama que explica cómo funciona la reidentificación

La investigadora Latanya Sweeney compró por 50 $ un conjunto de datos hospitalarios(nueva ventana) que contenía identificadores indirectos, como datos demográficos, diagnósticos y detalles de facturación. No se incluyeron detalles reveladores como los nombres. Al cruzar estos datos con noticias locales sobre hospitalizaciones, pudo vincular al 43 % de los pacientes con sus registros, incluido el historial médico completo de un paciente implicado en un accidente de motocicleta del que se informó.

La IA está haciendo que la desanonimización sea más rápida y barata

Si la única protección contra la reidentificación a partir de datos anónimos es el tiempo, la paciencia y el cruce manual de datos, esa protección incidental se está erosionando con la IA.

Las investigaciones muestran que los modelos de lenguaje de gran tamaño (LLM) pueden analizar las publicaciones de alguien en distintas plataformas, cruzar la información pública e identificar a usuarios anónimos con una precisión increíble. En un estudio sobre la desanonimización a escala(nueva ventana), los métodos basados en LLM identificaron hasta al 68 % de las personas y, cuando establecían una coincidencia, acertaban el 90 % de las veces.

Sweeney tuvo que pagar solo 50 $ por un conjunto de datos de cientos de miles de registros. Hoy en día, los LLM pueden desanonimizar perfiles por entre 1 y 4 $ cada uno y realizar el trabajo automáticamente. Además, no necesitan conjuntos de datos limpios y estructurados, y pueden detectar patrones en publicaciones y comentarios ordinarios.

Tal como lo expresa uno de los investigadores:

“Pregúntese: ¿podría un equipo de investigadores inteligentes descubrir quién es usted a partir de sus publicaciones? Si es así, es probable que los agentes de LLM puedan hacer lo mismo, y el costo de hacerlo no deja de disminuir”.

Proteja su privacidad al minimizar y cifrar los datos

Anonimizar los datos no es suficiente, ya que la reidentificación puede ocurrir cuando se conectan los puntos. La mejor forma de protegerse es minimizar su huella digital para que sea más difícil reidentificarlo.

No es necesario que desaparezca del mapa, pero debería ser más cauteloso con respecto a qué comparte y cómo lo hace. Aquí tiene algunos consejos prácticos:

Compartimentar su identidad para protegerse de las referencias cruzadas

Cuando utiliza el mismo correo electrónico y nombre de usuario en todas las plataformas, sus detalles son fáciles de recopilar. Es sencillo generar diferentes nombres de usuario para distintas cuentas, pero usar direcciones de correo electrónico únicas para todo puede ser una pesadilla, a menos que utilice alias de correo.

Los alias crean direcciones independientes que reenvían los mensajes a su bandeja de entrada principal sin exponer su identidad ni su dirección de correo electrónico real. Si utiliza un alias de correo único para cada servicio, podrá ver de dónde proviene una filtración o venta.

Por ejemplo, si crea un alias únicamente para la Empresa A y luego recibe correos electrónicos en ese alias de parte de la Empresa B, sabrá que la Empresa A compartió, vendió, filtró o perdió el control de su dirección. En ese caso, puede desactivar ese alias sin afectar su bandeja de entrada principal ni sus otros alias.

Sea inconsistente para protegerse de los patrones identificables

Cuanto más consistentes sean sus detalles en todas las plataformas, más fácil será crear un perfil único sobre usted. Siempre que sea posible, evite proporcionar más información de la necesaria.

Por ejemplo, utilice una ubicación general en lugar de su ciudad exacta, redondee su edad y omita los campos opcionales. Además, considere realizar pequeñas variaciones en su estilo de redacción, como frases repetidas, puntuación o errores ortográficos comunes, para limitar la identificación automatizada.

Limite su huella digital para protegerse del análisis de IA

Los modelos LLM pueden identificar a las personas al encontrar patrones en las publicaciones y en la escritura. Cuanto menos contenido público esté vinculado a su identidad, menos material habrá para analizar. Considere cuántos detalles personales revela al publicar; no solo hechos, sino hábitos, opiniones y temas recurrentes que lo hacen destacar. Asegúrese de rechazar el entrenamiento de IA en tantas plataformas como sea posible.

Utilice servicios con cifrado de extremo a extremo para protegerse de la recopilación de datos

El cifrado no solo protege los datos de los hackers, sino que limita lo que se puede leer en primer lugar. Un proveedor de correo electrónico que no puede leer sus mensajes tampoco puede escanearlos para publicidad, utilizarlos para el entrenamiento de IA ni compartir información con intermediarios.

Utilice correo electrónico con cifrado de extremo a extremo para comunicaciones privadas, almacenamiento seguro en la nube para guardar y compartir archivos de forma segura, y una VPN(nueva ventana) sin registros para cifrar su actividad de navegación; todo esto reduce la cantidad de datos que expone involuntariamente.

Rechace la recopilación de datos para protegerse de los intermediarios

Es posible borrar información personal de Internet, incluso de los intermediarios de datos, pero se requiere persistencia. No detendrá la recopilación de datos futura, pero puede darle un nuevo comienzo. En adelante, minimizar su huella digital y cifrar sus datos siempre que sea posible ayudará a limitar lo que se recopila.

Un diagrama que explica cómo volverse más anónimo

La anonimización no es una garantía de privacidad

La conclusión principal es que “anonimizado” no siempre significa seguro, permanente o imposible de rastrear. Cuanta menos información personal comparta, cuanto menos consistente sea en todas las plataformas y cuanto más control mantenga sobre sus cuentas y alias, habrá menos señales para vincularlas con usted.

Sus datos pueden estar anonimizados sobre el papel, pero su protección más sólida comienza antes de ese punto: con qué y dónde decide compartir, y con qué facilidad se puede conectar con el resto de su vida digital. Eso también significa ser consciente de los servicios que utiliza a diario y de las empresas propietarias de estos.

Las aplicaciones de Proton son de código abierto, sin anuncios y están diseñadas para evitar el seguimiento y el entrenamiento de IA sobre cualquiera de sus datos. Con el cifrado de extremo a extremo, el cifrado de acceso cero y un modelo de negocio financiado exclusivamente por nuestra comunidad de suscriptores de pago, no necesitamos explotar sus datos, no podemos leer la mayor parte de ellos y no queremos hacerlo.