Cuando las empresas dicen que tus datos personales están anonimizados, suena como si tu identidad online se hubiera borrado para siempre. Tu información se convierte en ruido en un conjunto de datos, así que puedes bajar la guardia. Bueno, no es exactamente así.

Los datos anonimizados son datos a los que se les han eliminado los identificadores personales más obvios, como el nombre o la dirección de casa. Pero en un mundo lleno de bases de datos interconectadas, solo hace falta un puñado de detalles aparentemente inconexos para rastrear a alguien.

La investigación(ventana nueva) ha demostrado que solo se necesitan 15 puntos de datos para identificar al 99,98 % de las personas en un conjunto de datos de millones. Y con la IA conectando los puntos de tu actividad online, la brecha entre lo “anónimo” y lo “identificado” se está reduciendo.

Echemos un vistazo a lo que significa realmente la anonimización de datos y qué puedes hacer para proteger mejor tu privacidad.

¿Qué es la anonimización de datos?

La anonimización de datos es el proceso irreversible de eliminar cualquier elemento personalmente identificable de los puntos de datos, como tu nombre, dirección de correo electrónico, número de contacto o fecha de nacimiento. El objetivo es romper el vínculo entre un registro y una persona tanto como sea posible.

Sin embargo, tras la anonimización, los datos siguen incluyendo pistas indirectas, como tu ubicación general, hábitos de navegación y rango de edad. Individualmente, estos detalles son bastante inofensivos, pero cuando se toman en conjunto, forman un patrón que apunta hacia ti.

Un diagrama que explica cómo funciona la anonimización

Algunos tipos de datos, como los biométricos, son especialmente difíciles (o incluso imposibles) de anonimizar de verdad. Puedes crear un nombre de usuario seguro, pero no cambiar la cara, la huella digital o el patrón del iris de una persona.

Cuando los datos están verdaderamente anonimizados, dejan de considerarse personales según las leyes de privacidad como el GDPR. Eso significa que las empresas pueden utilizarlos sin los requisitos de consentimiento y protección que se aplican a los datos personales.

Pero el Considerando 26 del GDPR(ventana nueva) pone el listón alto: los datos ya no deben identificar a una persona, incluso cuando se considere otra información y métodos que razonablemente podrían utilizarse para reidentificarla. Por tanto, eliminar nombres o direcciones de correo electrónico no es suficiente si los datos restantes siguen apuntando a alguien.

Anonimización frente a seudonimización

Mientras que la anonimización elimina permanentemente la información identificable para garantizar que no pueda rastrearse hasta un individuo, la seudonimización sustituye esos datos por una etiqueta, token o código. La identidad original se guarda por separado en una clave segura o tabla de consulta, pero con el acceso adecuado, esa etiqueta puede vincularse de nuevo a una persona real.

Un ejemplo de seudonimización es la investigación médica, donde los nombres de los pacientes se sustituyen por códigos. Los investigadores pueden seguir rastreando los datos, pero solo el personal autorizado con la clave puede volver a conectarlos con el individuo.

Esta diferencia es sencilla pero importante. La seudonimización se considera datos personales bajo normativas como el GDPR porque aún puede vincularse a alguien. Los datos anonimizados, por el contrario, quedan fuera de esas obligaciones solo cuando la reidentificación ya no es razonablemente posible.

Técnicas habituales de anonimización de datos

Las empresas utilizan distintos métodos de anonimización en función de cómo tengan pensado usar los datos. Estos son algunos de los más habituales:

La enmascaración de datos sustituye la información por datos falsos, como cambiar un número de teléfono por uno ficticio.

La generalización hace que los datos sean menos específicos, como usar rangos de edad en lugar de una edad exacta.

El intercambio de datos mezcla la información entre registros para que dejen de coincidir con la persona original.

La perturbación de datos oculta detalles individuales al tiempo que preserva las tendencias de los datos, como cambiarlos redondeando los números.

Los datos sintéticos se basan en información artificial que imita los patrones del conjunto de datos original sin utilizar directamente registros reales.

Estas técnicas pueden reducir los riesgos de privacidad, pero su eficacia depende totalmente de lo bien que se apliquen. Aun así, puede que no eliminen todas las pistas que podrían identificar a alguien.

Cómo utilizan las empresas los datos anonimizados

Los datos anonimizados son valiosos porque las empresas pueden utilizarlos legalmente como quieran, sin tu consentimiento. Los usos más habituales incluyen:

Análisis y desarrollo: las empresas estudian el comportamiento de los usuarios para mejorar los productos, medir tendencias y orientar las decisiones empresariales.

Publicidad: los patrones de navegación y compra pueden utilizarse para crear segmentos de audiencia para anuncios segmentados, incluso sin que tu nombre aparezca vinculado.

Corredores de datos: algunos datos son agregados, empaquetados y revendidos por corredores de datos. Estas empresas combinan información de aplicaciones, sitios web, registros públicos, datos de crédito y más para crear perfiles detallados que se venden a quien los quiera, con poca supervisión legal.

Entrenamiento de modelos de IA: a menudo se utilizan grandes conjuntos de datos para entrenar sistemas de IA, incluidos datos extraídos de la actividad de los usuarios, conjuntos de datos comprados y fuentes públicas o recopiladas mediante scraping.

Investigación médica: en algunos países(ventana nueva), los datos médicos anonimizados pueden venderse a empresas farmacéuticas o compartirse con investigadores.

Los datos anonimizados pueden utilizarse para fines positivos, como mejorar servicios o dar soporte a la investigación. El problema es que crean un fuerte incentivo comercial para que los corredores de datos y los anunciantes recopilen, combinen, compartan, vuelvan a empaquetar y vendan información sobre las personas, a menudo de formas que estas no comprenden del todo o para las que no dan su consentimiento explícito. Para quienes deciden más tarde que quieren salir de ahí, eliminar sus datos no es sencillo.

El organismo regulador de la privacidad de California creó el sistema DROP(ventana nueva) porque eliminar datos de cientos de corredores de datos ha sido históricamente difícil de administrar para los particulares. Esto es mucho más difícil con los datos de entrenamiento de IA, porque una vez que los datos han influido en un modelo entrenado, eliminarlos puede requerir técnicas de desaprendizaje automático(ventana nueva) por las que las empresas de IA no tienen ningún interés(ventana nueva).

La reidentificación de datos, o por qué los datos anonimizados no son verdaderamente anónimos

Si alguien te dice que está buscando a un hombre de unos 30 años que conduce un coche blanco y vive en tu barrio, es posible que ya tengas una buena idea de a quién se refiere. Ninguno de esos detalles por separado puede identificar a la persona pero, juntos, ayudan a estrechar las posibilidades excluyendo a todos los demás. Los datos anonimizados funcionan del mismo modo: aunque se eliminen los nombres y los detalles de contacto, la información restante puede seguir resultando reveladora cuando se combinan suficientes detalles.

Cuando estos patrones se cotejan con otras fuentes, como las redes sociales o los registros públicos, es posible conectar datos supuestamente anónimos con una persona. Esto se conoce como reidentificación y suele ser más fácil de lo que esperas.

Un diagrama que explica cómo funciona la reidentificación

La investigadora Latanya Sweeney compró un conjunto de datos hospitalarios(ventana nueva) por 50 dólares que contenía identificadores indirectos, como datos demográficos, diagnósticos y detalles de facturación. No se incluyeron detalles reveladores como los nombres. Al cotejar estos datos con noticias locales sobre hospitalizaciones, pudo vincular el 43 % de los pacientes con sus registros, incluido el historial médico completo de un paciente implicado en un accidente de moto del que se informó en prensa.

La IA está haciendo que la desanonimización sea más rápida y barata

Si la única protección contra la reidentificación a partir de datos anónimos es el tiempo, la paciencia y el cotejo manual, esa protección incidental se está desvaneciendo con la IA.

Las investigaciones demuestran que los modelos de lenguaje de gran tamaño (LLM) pueden analizar las publicaciones de alguien en distintas plataformas, cotejar la información pública e identificar a usuarios anónimos con una precisión increíble. En un estudio sobre la desanonimización a escala(ventana nueva), los métodos basados en LLM identificaron hasta el 68 % de las personas y, cuando encontraban una coincidencia, acertaban el 90 % de las veces.

Sweeney tuvo que pagar solo 50 dólares por un conjunto de datos con cientos de miles de registros. Hoy en día, los LLM pueden desanonimizar perfiles por entre 1 y 4 dólares cada uno y hacer el trabajo automáticamente. Además, no necesitan conjuntos de datos limpios y estructurados, y pueden detectar patrones en publicaciones y comentarios normales.

Tal como lo expresa uno de los investigadores:

«Pregúntate: ¿podría un equipo de investigadores inteligentes descubrir quién eres a partir de tus publicaciones? Si es así, es probable que los agentes de LLM puedan hacer lo mismo, y el coste de hacerlo no para de bajar».

Protege tu privacidad minimizando y cifrando los datos

Anonimizar los datos no es suficiente, ya que la reidentificación puede ocurrir al conectar los puntos. La mejor manera de protegerte es minimizar tu huella digital, para que seas más difícil de reidentificar.

No hace falta que te desconectes del mundo, pero deberías ser más consciente sobre qué compartes y cómo lo haces. Aquí tienes algunos consejos prácticos:

Compartimenta tu identidad para protegerte contra las referencias cruzadas

Cuando usas el mismo correo electrónico y nombre de usuario en todas las plataformas, es fácil recopilar tus detalles. Es sencillo generar diferentes nombres de usuario para distintas cuentas, pero usar direcciones de correo electrónico únicas para todo puede ser una pesadilla a menos que uses alias de correo.

Los alias crean direcciones separadas que reenvían mensajes a tu bandeja de entrada principal sin exponer tu dirección de correo electrónico e identidad reales. Si utilizas un alias de correo único para cada servicio, podrás ver de dónde procede una filtración o venta.

Por ejemplo, si creas un alias solo para la Empresa A y luego recibes correos electrónicos en ese alias de la Empresa B, sabrás que la Empresa A compartió, vendió, filtró o perdió el control de tu dirección. Entonces podrás desactivar ese alias sin que ello afecte a tu bandeja de entrada principal ni a tus otros alias.

Sé inconsistente para protegerte contra patrones identificables

Cuanto más consistentes sean tus detalles en las distintas plataformas, más fácil será crear un perfil único sobre ti. Siempre que sea posible, evita dar más información de la necesaria.

Por ejemplo, usa una ubicación general en lugar de tu ciudad exacta, redondea tu edad y omite los campos opcionales. Considera también realizar pequeñas variaciones en tu estilo de escritura, como frases repetidas, puntuación o errores tipográficos comunes, para limitar la identificación automatizada.

Limita tu huella digital para protegerte contra el análisis de la IA

Los modelos LLM pueden identificar a las personas al encontrar patrones en las publicaciones y la escritura. Cuanto menos contenido público esté vinculado a tu identidad, menos material habrá con el que trabajar. Piensa en cuántos detalles personales revelas al publicar: no solo hechos, sino hábitos, opiniones y temas recurrentes que te hacen destacar. Asegúrate de excluirte del entrenamiento de la IA en tantas plataformas como sea posible.

Utiliza servicios con cifrado de extremo a extremo para protegerte contra la recopilación de datos

El cifrado no solo protege los datos de los hackers, sino que limita lo que se puede leer en primer lugar. Un proveedor de correo electrónico que no puede leer tus mensajes no puede escanearlos para publicidad, usarlos para el entrenamiento de IA ni compartir información con intermediarios.

Usa un correo electrónico con cifrado de extremo a extremo para tus comunicaciones privadas, un servicio de almacenamiento en la nube seguro para guardar y compartir archivos de forma segura, y una VPN(ventana nueva) sin registros para cifrar tu actividad de navegación; todo ello reduce la cantidad de datos que expones involuntariamente.

Exclúyete de la recopilación de datos para protegerte de los intermediarios

Es posible eliminar información personal de Internet, incluso de los intermediarios de datos, pero requiere persistencia. No detendrá la recopilación de datos futura, pero puede darte un nuevo comienzo. De ahora en adelante, minimizar tu huella digital y cifrar tus datos cuando sea posible ayudará a limitar lo que se recopila.

Un diagrama que explica cómo volverse más anónimo

La anonimización no es una garantía de privacidad

La conclusión principal es que «anonimizado» no siempre significa seguro, permanente o imposible de rastrear. Cuanta menos información personal compartas, menos consistente seas en las plataformas y más control mantengas sobre tus cuentas y alias, menos señales habrá para vincularlas contigo.

Tus datos pueden estar anonimizados sobre el papel, pero tu protección más sólida comienza antes de ese punto: con qué y dónde eliges compartir, y con qué facilidad puede conectarse con el resto de tu vida digital. Eso también significa ser consciente de los servicios que usas a diario y de las empresas que son sus propietarias.

Las aplicaciones de Proton son de código abierto, no tienen anuncios y están diseñadas para evitar el rastreo y el entrenamiento de la IA con cualquiera de tus datos. Con el cifrado de extremo a extremo, el cifrado de acceso cero y un modelo de negocio financiado exclusivamente por nuestra comunidad de suscriptores de pago, no necesitamos explotar tus datos, no podemos leer la mayor parte de ellos y no queremos hacerlo.