A anonimização de dados não torna você anônimo. Entenda o porquê.

Quando as empresas dizem que os seus dados pessoais são anonimizados, parece que a sua identidade on-line foi apagada para sempre. Suas informações tornam-se ruído em um conjunto de dados, para que você possa baixar a guarda. Bem, não é bem assim.

Dados anonimizados são dados com os identificadores pessoais mais óbvios removidos, como nome ou endereço residencial. Mas em um mundo repleto de bancos de dados interconectados, bastam apenas alguns detalhes aparentemente não relacionados para rastrear alguém.

Pesquisas(nova janela) mostraram que são necessários apenas 15 pontos de dados para identificar 99,98% das pessoas em um conjunto de dados de milhões. E com a IA conectando os pontos em toda a sua atividade on-line, a lacuna entre “anônimo” e “identificado” está diminuindo.

Vamos dar uma olhada no que a anonimização de dados realmente significa e no que você pode fazer para proteger melhor a sua privacidade.

O que é a anonimização de dados?
Anonimização vs. pseudonimização
Técnicas comuns de anonimização de dados
Como as empresas usam dados anonimizados
Reidentificação de dados, ou por que os dados anonimizados não são verdadeiramente anônimos
A IA está tornando a desanonimização mais rápida e barata
Proteja sua privacidade minimizando e criptografando dados
A anonimização não é uma garantia de privacidade

O que é a anonimização de dados?

A anonimização de dados é o processo irreversível de remover qualquer coisa pessoalmente identificável dos pontos de dados, como seu nome, endereço de e-mail, número de contato ou data de nascimento. O objetivo é cortar o vínculo entre um registro e uma pessoa o máximo possível.

No entanto, após a anonimização, os dados ainda incluem pistas indiretas, como sua localização geral, hábitos de navegação e faixa etária. Individualmente, esses detalhes são inofensivos, mas, quando tomados em conjunto, formam um padrão que aponta para você.

Um diagrama explicando como funciona a anonimização

Alguns tipos de dados, como os biométricos, são especialmente difíceis (ou até impossíveis) de anonimizar verdadeiramente. Você pode criar um nome de usuário seguro, mas não pode mudar o rosto, a impressão digital ou o padrão da íris de uma pessoa.

Quando os dados são verdadeiramente anonimizados, eles não são mais considerados pessoais sob as leis de privacidade, como o GDPR. Isso significa que as empresas podem usá-los sem o consentimento e os requisitos de proteção que se aplicam aos dados pessoais.

Mas o Recital 26 do GDPR(nova janela) estabelece um nível alto: os dados não devem mais identificar uma pessoa, mesmo considerando outras informações e métodos que poderiam ser razoavelmente usados para reidentificá-la. Portanto, remover nomes ou endereços de e-mail não é suficiente se os dados restantes ainda apontarem para alguém.

Anonimização vs. pseudonimização

Enquanto a anonimização remove permanentemente informações identificáveis para garantir que não possam ser rastreadas até um indivíduo, a pseudonimização substitui esses dados por um marcador, token ou código. A identidade original é armazenada separadamente em uma chave segura ou tabela de consulta, mas com o acesso correto, esse marcador pode ser vinculado novamente a uma pessoa real.

Um exemplo de pseudonimização é a pesquisa médica, na qual os nomes dos pacientes são substituídos por códigos. Os pesquisadores ainda podem rastrear os dados, mas apenas o pessoal autorizado com a chave pode conectá-los novamente ao indivíduo.

Essa diferença é simples, mas importante. A pseudonimização é considerada dado pessoal sob regulamentos como o GDPR porque ainda pode ser vinculada a alguém. Os dados anonimizados, por outro lado, ficam fora dessas obrigações somente quando a reidentificação não for mais razoavelmente possível.

Técnicas comuns de anonimização de dados

As empresas usam diferentes métodos de anonimização dependendo de como planejam usar os dados. Aqui estão alguns dos mais comuns:

O mascaramento de dados substitui informações por dados falsos, como trocar um número de telefone por um fictício.

A generalização torna os dados menos específicos, como usar faixas etárias em vez de uma idade exata.

A permutação de dados embaralha informações entre registros para que elas não correspondam mais à pessoa original.

A perturbação de dados oculta detalhes individuais e ao mesmo tempo preserva as tendências dos dados, como alterar dados por meio do arredondamento de números.

Os dados sintéticos baseiam-se em dados artificiais que imitam os padrões do conjunto de dados original sem usar diretamente registros reais.

Essas técnicas podem reduzir os riscos de privacidade, mas sua eficácia depende inteiramente de quão bem são aplicadas. Mesmo assim, elas podem não remover todas as pistas que poderiam identificar alguém.

Como as empresas usam dados anonimizados

Dados anonimizados são valiosos porque as empresas podem usá-los legalmente como quiserem, sem o seu consentimento. Os usos comuns incluem:

Análise e desenvolvimento: as empresas estudam o comportamento do usuário para melhorar produtos, medir tendências e orientar decisões de negócios.

Publicidade: padrões de navegação e compra podem ser usados para criar segmentos de público para anúncios direcionados, mesmo sem o seu nome anexado.

Corretores de dados: alguns dados são agregados, empacotados e revendidos por corretores de dados. Essas empresas combinam informações de aplicativos, sites, registros públicos, dados de crédito e muito mais para criar perfis com detalhes que são vendidos para quem os quiser, com pouca supervisão legal.

Treinamento de modelos de IA: grandes conjuntos de dados são frequentemente usados para treinar sistemas de IA, incluindo dados extraídos da atividade do usuário, conjuntos de dados comprados e fontes públicas ou coletadas por raspagem.

Pesquisa médica: Em alguns países(nova janela), dados médicos anonimizados podem ser vendidos para empresas farmacêuticas ou compartilhados com pesquisadores.

Dados anonimizados podem ser usados para o bem, como para melhorar serviços ou dar suporte a pesquisas. O problema é que isso cria um forte incentivo comercial para que corretores de dados e anunciantes coletem, combinem, compartilhem, reempacotem e vendam informações sobre as pessoas, muitas vezes de formas que elas não entendem totalmente ou não consentem de forma significativa. Para as pessoas que decidem mais tarde que querem sair, remover seus dados não é simples.

O regulador de privacidade da Califórnia criou o sistema DROP(nova janela) porque excluir dados de centenas de corretores de dados tem sido historicamente difícil para os indivíduos gerenciarem. Isso é muito mais difícil com dados de treinamento de IA, pois uma vez que os dados influenciaram um modelo treinado, removê-los pode exigir técnicas de “desaprendizado de máquina” (machine unlearning)(nova janela) que as empresas de IA não estão dispostas a adotar(nova janela).

Reidentificação de dados, ou por que dados anonimizados não são verdadeiramente anônimos

Se alguém te disser que está procurando por um homem na casa dos 30 anos que dirige um carro branco e mora no seu bairro, você já pode ter uma boa ideia de quem se trata. Nenhum desses detalhes pode identificar a pessoa separadamente, mas, juntos, eles ajudam a restringir as possibilidades ao excluir todos os outros. Dados anonimizados funcionam da mesma maneira: mesmo que nomes e detalhes de contato sejam removidos, as informações restantes ainda podem se tornar reveladoras quando detalhes suficientes são combinados.

Quando esses padrões são cruzados com outras fontes, como redes sociais ou registros públicos, torna-se possível conectar dados supostamente anônimos a uma pessoa. Isso é conhecido como reidentificação e costuma ser mais fácil do que você imagina.

Um diagrama explicando como funciona a reidentificação

A pesquisadora Latanya Sweeney comprou um conjunto de dados hospitalares(nova janela) por US$ 50 que continha identificadores indiretos, como dados demográficos, diagnósticos e detalhes de faturamento. Detalhes reveladores, como nomes, não foram incluídos. Ao cruzar esses dados com notícias locais sobre hospitalizações, ela conseguiu fazer a correspondência de 43% dos pacientes com seus registros, incluindo o histórico médico completo de um paciente envolvido em um acidente de moto relatado.

A IA está tornando a desanonimização mais rápida e barata

Se a única proteção contra a reidentificação de dados anônimos é o tempo, a paciência e o cruzamento manual de dados, essa proteção incidental está sendo desgastada com a IA.

Pesquisas mostram que modelos de linguagem grandes (LLMs) podem analisar as publicações de alguém em várias plataformas, cruzar informações públicas e identificar usuários anônimos com uma precisão incrível. Em um estudo sobre desanonimização em escala(nova janela), os métodos baseados em LLM identificaram até 68% delle pessoas e, quando faziam uma correspondência, estavam corretos em 90% das vezes.

Sweeney teve que pagar apenas US$ 50 por um conjunto de dados de centenas de milhares de registros. Hoje, os LLMs podem desanonimizar perfis por US$ 1 a US$ 4 cada e fazer o trabalho automaticamente. Eles também não precisam de conjuntos de dados limpos e estruturados e podem identificar padrões em publicações e comentários comuns.

Como diz um dos pesquisadores:

“Pergunte a você mesmo: uma equipe de investigadores inteligentes conseguiria descobrir quem você é a partir das suas publicações? Se sim, agentes de LLM provavelmente conseguem fazer o mesmo, e o custo para isso só diminui.”

Proteja sua privacidade ao minimizar e criptografar dados

Anonimizar dados não é o suficiente, já que a reidentificação pode acontecer quando os pontos são conectados. A melhor maneira de se proteger é minimizar sua pegada digital, tornando-se mais difícil de ser reidentificado.

Você não precisa sumir do mapa, mas deve ser mais cauteloso sobre o que e como você compartilha. Aqui estão algumas dicas práticas:

Compartimentalize sua identidade para se proteger contra referências cruzadas

Quando você usa o mesmo e-mail e nome de usuário em todas as plataformas, seus detalhes são fáceis de reunir. É simples gerar nomes de usuário diferentes para contas distintas, mas usar endereços de e-mail exclusivos para tudo pode ser um pesadelo, a menos que você use aliases de e-mail.

Aliases criam endereços separados que encaminham mensagens para sua caixa de entrada principal sem expor seu endereço de e-mail e identidade reais. Se você usar um alias de e-mail exclusivo para cada serviço, poderá ver de onde veio um vazamento ou uma venda.

Por exemplo, se você criar um alias apenas para a Empresa A e depois receber e-mails para esse alias da Empresa B, você saberá que a Empresa A compartilhou, vendeu, vazou ou perdeu o controle do seu endereço. Você pode então desativar esse alias sem afetar sua caixa de entrada principal ou seus outros aliases.

Seja inconsistente para se proteger contra padrões identificáveis

Quanto mais consistentes forem seus detalhes em diferentes plataformas, mais fácil será criar um perfil exclusivo sobre você. Sempre que possível, evite fornecer mais informações do que o necessário.

Por exemplo, use uma localização genérica em vez da sua cidade exata, arredonde sua idade e pule campos opcionais. Além disso, considere fazer pequenas variações no seu estilo de escrita, como frases repetidas, pontuação ou erros de digitação comuns, para limitar a identificação automatizada.

Limite sua pegada digital para se proteger contra análises de IA

As LLMs podem identificar pessoas ao encontrar padrões em publicações e na escrita. Quanto menos conteúdo público estiver vinculado à sua identidade, menos material haverá para trabalhar. Considere quantos detalhes pessoais você revela ao postar — não apenas fatos, mas hábitos, opiniões e tópicos recorrentes que fazem você se destacar. Certifique-se de optar por não participar do treinamento de IA no maior número possível de plataformas.

Use serviços criptografados de ponta a ponta para se proteger contra a coleta de dados

A criptografia não protege apenas os dados contra hackers, mas limita o que pode ser lido em primeiro lugar. Um provedor de e-mail que não consegue ler suas mensagens não pode escaneá-las para publicidade, usá-las para treinamento de IA ou compartilhar informações com corretores de dados.

Use e-mail criptografado de ponta a ponta para comunicações privadas, armazenamento em nuvem seguro para armazenar e compartilhar arquivos com segurança e uma VPN(nova janela) sem registros para criptografar sua atividade de navegação — tudo isso reduz a quantidade de dados que você expõe sem querer.

Opte por não participar da coleta de dados para se proteger contra corretores

É possível remover informações pessoais da internet, até mesmo de corretores de dados, mas isso exige persistência. Isso não impedirá a coleta de dados futura, mas pode te dar um novo começo. Daqui para frente, minimizar sua pegada digital e criptografar seus dados sempre que possível ajudará a limitar o que é coletado.

Um diagrama explicando como se tornar mais anônimo

A anonimização não é uma garantia de privacidade

A principal lição é que “anonimizado” nem sempre significa seguro, permanente ou impossível de rastrear. Quanto menos informações pessoais você compartilhar, menos consistente você for entre as plataformas e mais controle mantiver sobre suas contas e aliases, menos sinais haverá para te identificar.

Seus dados podem ser anonimizados no papel, mas sua proteção mais forte começa antes desse ponto: com o que e onde você escolhe compartilhar, e com que facilidade isso pode ser conectado ao resto da sua vida digital. Isso também significa ser intencional sobre os serviços que você usa todos os dias e as empresas que os possuem.

Os aplicativos da Proton são de código aberto, livres de anúncios e projetados para evitar o rastreamento e o treinamento de IA em qualquer um dos seus dados. Com a criptografia de ponta a ponta, a criptografia de acesso zero e um modelo de negócios financiado exclusivamente por nossa comunidade de assinantes pagantes, não precisamos explorar seus dados, não podemos ler a maior parte deles — e nem queremos.

Anonimização explicada: se os seus dados são anônimos, por que os anunciantes ainda podem segmentar você?