A anonimização de dados não o torna anónimo. Saiba porquê.

Quando as empresas dizem que os seus dados pessoais são anonimizados, parece que a sua identidade online foi eliminada para sempre. As suas informações tornam-se ruído num conjunto de dados, permitindo-lhe baixar a guarda. Bem, não é bem assim.

Dados anonimizados são dados aos quais foram removidos os identificadores pessoais mais óbvios, como o nome ou o endereço residencial. No entanto, num mundo cheio de bases de dados interligadas, bastam apenas alguns detalhes aparentemente não relacionados para localizar alguém.

Investigações(nova janela) mostraram que são necessários apenas 15 pontos de dados para identificar 99,98% das pessoas num conjunto de dados de milhões. E com a IA a ligar os pontos em toda a sua atividade online, a lacuna entre o “anónimo” e o “identificado” está a diminuir.

Vejamos o que significa realmente a anonimização de dados e o que pode fazer para proteger melhor a sua privacidade.

O que é a anonimização de dados?
Anonimização vs. pseudonimização
Técnicas comuns de anonimização de dados
Como as empresas utilizam dados anonimizados
Reidentificação de dados, ou porque é que os dados anonimizados não são verdadeiramente anónimos
A IA está a tornar a desanonimização mais rápida e económica
Proteja a sua privacidade ao minimizar e encriptar dados
A anonimização não é uma garantia de privacidade

O que é a anonimização de dados?

A anonimização de dados é o processo irreversível de remover qualquer elemento pessoalmente identificável dos pontos de dados, como o seu nome, endereço de e-mail, número de contacto ou data de nascimento. O objetivo é cortar o mais possível a ligação entre um registo e uma pessoa.

No entanto, após a anonimização, os dados ainda incluem pistas indiretas, como a sua localização geral, hábitos de navegação e faixa etária. Individualmente, estes detalhes são inofensivos, mas quando analisados em conjunto, formam um padrão que aponta para si.

Um diagrama a explicar como funciona a anonimização

Alguns tipos de dados, como os biométricos, são especialmente difíceis (ou até impossíveis) de anonimizar verdadeiramente. Pode criar um nome de utilizador seguro, mas não pode mudar o rosto, a impressão digital ou o padrão da íris de uma pessoa.

Quando os dados são verdadeiramente anonimizados, deixam de ser considerados pessoais ao abrigo das leis de privacidade como o GDPR. Isso significa que as empresas podem utilizá-los sem os requisitos de consentimento e proteção que se aplicam aos dados pessoais.

Mas o Considerando 26 do GDPR(nova janela) estabelece uma fasquia elevada: os dados já não devem identificar uma pessoa, mesmo considerando outras informações e métodos que poderiam ser razoavelmente utilizados para a reidentificar. Assim, remover nomes ou endereços de e-mail não é suficiente se os dados restantes continuarem a apontar para alguém.

Anonimização vs. pseudonimização

Enquanto a anonimização remove permanentemente informações identificáveis para garantir que não podem ser rastreadas até um indivíduo, a pseudonimização substitui esses dados por uma etiqueta, token ou código. A identidade original é armazenada separadamente numa chave segura ou tabela de consulta, mas com o acesso correto, essa etiqueta pode ser ligada novamente a uma pessoa real.

Um exemplo de pseudonimização é a investigação médica, onde os nomes dos pacientes são substituídos por códigos. Os investigadores podem continuar a acompanhar os dados, mas apenas o pessoal autorizado com a chave pode voltar a ligar os mesmos ao indivíduo.

Esta diferença é simples mas importante. A pseudonimização é considerada dados pessoais sob regulamentos como o GDPR porque ainda pode ser ligada a alguém. Os dados anonimizados, por contraste, ficam fora dessas obrigações apenas quando a reidentificação já não for razoavelmente possível.

Técnicas comuns de anonimização de dados

As empresas utilizam diferentes métodos de anonimização, dependendo de como planeiam utilizar os dados. Aqui estão alguns dos mais comuns:

A máscara de dados substitui informações por dados falsos, como a troca de um número de telefone por um fictício.

A generalização torna os dados menos específicos, como a utilização de faixas etárias em vez de uma idade exata.

A troca de dados baralha as informações entre registos para que estes deixem de corresponder à pessoa original.

A perturbação de dados oculta detalhes individuais, preservando as tendências dos dados, como a alteração de dados através do arredondamento de números.

Os dados sintéticos baseiam-se em dados artificiais que imitam os padrões do conjunto de dados original sem utilizar diretamente registos reais.

Estas técnicas podem reduzir os riscos de privacidade, mas a sua eficácia depende inteiramente da forma como são aplicadas. Mesmo assim, podem não remover todas as pistas que possam identificar alguém.

Como as empresas utilizam dados anonimizados

Os dados anonimizados são valiosos porque as empresas podem utilizá-los legalmente como quiserem, sem o seu consentimento. As utilizações comuns incluem:

Análise e desenvolvimento: as empresas estudam o comportamento do utilizador para melhorar produtos, medir tendências e orientar decisões de negócio.

Publicidade: os padrões de navegação e de compra podem ser utilizados para criar segmentos de audiência para anúncios direcionados, mesmo sem o seu nome associado.

Data brokers: alguns dados são agregados, empacotados e revendidos por data brokers. Estas empresas combinam informações de aplicações, sítios web, registos públicos, dados de crédito e muito mais para criar perfis detalhados que são vendidos a quem os pretender, com pouca supervisão legal.

Treino de modelos de IA: grandes conjuntos de dados são frequentemente utilizados para treinar sistemas de IA, incluindo dados extraídos da atividade do utilizador, conjuntos de dados comprados e fontes públicas ou recolhidas por raspagem (scraping).

Investigação médica: em alguns países(nova janela), os dados médicos anonimizados podem ser vendidos a empresas farmacêuticas ou partilhados com investigadores.

Os dados anonimizados podem ser utilizados para o bem, como para melhorar serviços ou prestar apoio ao cliente na investigação. O problema é que isso cria um forte incentivo comercial para que os data brokers e anunciantes recolham, combinem, partilhem, reembalem e vendam informações sobre as pessoas, muitas vezes de formas que estas não compreendem totalmente ou para as quais não dão um consentimento significativo. Para as pessoas que decidem mais tarde que querem sair, remover os seus dados não é simples.

A entidade reguladora da privacidade da Califórnia criou o sistema DROP(nova janela) porque eliminar dados de centenas de data brokers tem sido historicamente difícil de gerir para os indivíduos. Isto é muito mais difícil com dados de treino de IA, porque uma vez que os dados tenham influenciado um modelo treinado, a sua remoção pode exigir técnicas de machine unlearning(nova janela) para as quais as empresas de IA não têm apetite(nova janela).

Reidentificação de dados, ou por que razão os dados anonimizados não são verdadeiramente anónimos

Se alguém lhe disser que procura um homem na casa dos 30 anos que conduz um carro branco e vive no seu bairro, poderá já ter uma boa ideia de quem se trata. Nenhum desses detalhes pode identificar separadamente a pessoa, mas, juntos, ajudam a estreitar as possibilidades, excluindo todos os outros. Os dados anonimizados funcionam da mesma forma: mesmo que os nomes e detalhes de contacto sejam removidos, a informação restante pode tornar-se reveladora quando se combinam detalhes suficientes.

Quando estes padrões são cruzados com outras fontes, tais como redes sociais ou registos públicos, torna-se possível ligar dados supostamente anónimos a uma pessoa. Isto é conhecido como reidentificação e é frequentemente mais fácil do que se espera.

Um diagrama a explicar como funciona a reidentificação

A investigadora Latanya Sweeney comprou um conjunto de dados hospitalares(nova janela) por 50 $ que continha identificadores indiretos, tais como dados demográficos, diagnósticos e detalhes de faturação. Detalhes reveladores, como os nomes, não foram incluídos. Ao cruzar estes dados com notícias locais sobre hospitalizações, ela conseguiu fazer corresponder 43% dos pacientes aos seus registos, incluindo o historial médico completo de um paciente envolvido num acidente de mota noticiado.

A IA está a tornar a desanonimização mais rápida e barata

Se a única proteção contra a reidentificação a partir de dados anónimos é o tempo, a paciência e o cruzamento manual de dados, essa proteção incidental está a sofrer uma erosão com a IA.

Investigações mostram que os grandes modelos de linguagem (LLMs) podem analisar publicações de alguém em várias plataformas, cruzar informações públicas e identificar utilizadores anónimos com uma precisão incrível. Num estudo sobre desanonimização em escala(nova janela), os métodos baseados em LLM identificaram até 68% das pessoas e, quando faziam uma correspondência, estavam corretos em 90% das vezes.

Sweeney teve de pagar apenas 50 $ por um conjunto de dados de centenas de milhares de registos. Atualmente, os LLMs podem desanonimizar perfis por 1 a 4 $ cada e fazer o trabalho automaticamente. Também não precisam de conjuntos de dados limpos e estruturados e podem detetar padrões em publicações e comentários comuns.

Como refere um dos investigadores:

“Pergunte a si próprio: Será que uma equipa de investigadores inteligentes conseguiria descobrir quem é através das suas publicações? Se sim, os agentes de LLM provavelmente conseguem fazer o mesmo, e o custo de o fazer só está a diminuir.”

Proteja a sua privacidade ao minimizar e encriptar dados

Anonimizar dados não é suficiente, uma vez que a reidentificação pode ocorrer quando os pontos são ligados. A melhor forma de se proteger é minimizar a sua pegada digital, tornando-se mais difícil de reidentificar.

Não tem de se isolar do mundo digital, mas deve ser mais ponderado sobre o que partilha e como o faz. Aqui estão algumas dicas práticas:

Compartimentalize a sua identidade para se proteger contra o cruzamento de referências

Quando utiliza o mesmo e-mail e nome de utilizador em todas as plataformas, os seus detalhes são fáceis de associar. É simples gerar diferentes nomes de utilizador para diferentes contas, mas utilizar endereços de e-mail únicos para tudo pode ser um pesadelo, a menos que utilize aliases de e-mail.

Os aliases criam endereços separados que encaminham mensagens para a sua caixa de entrada principal sem expor o seu endereço de e-mail real e identidade. Se utilizar um alias de e-mail único para cada serviço, poderá ver de onde veio uma fuga ou venda.

Por exemplo, se criar um alias apenas para a Empresa A e mais tarde receber e-mails nesse alias da Empresa B, saberá que a Empresa A partilhou, vendeu, deixou escapar ou perdeu o controlo do seu endereço. Pode então desativar esse alias sem afetar a sua caixa de entrada principal ou os seus outros aliases.

Seja inconsistente para se proteger contra padrões identificáveis

Quanto mais consistentes forem os seus detalhes nas plataformas, mais fácil será construir um perfil único sobre si. Sempre que possível, evite fornecer mais informações do que o necessário.

Por exemplo, utilize uma localização genérica em vez da sua cidade exata, arredonde a sua idade e ignore campos opcionais. Além disso, considere fazer pequenas variações no seu estilo de escrita, tais como frases repetidas, pontuação ou erros ortográficos comuns, para limitar a identificação automatizada.

Limite a sua pegada digital para se proteger contra a análise de IA

As LLMs podem identificar pessoas ao encontrar padrões em publicações e na escrita. Quanto menos conteúdo público estiver ligado à sua identidade, menos material haverá para trabalhar. Considere quantos detalhes pessoais revela ao publicar — não apenas factos, mas hábitos, opiniões e tópicos recorrentes que o fazem destacar-se. Certifique-se de rejeitar a formação de IA no maior número de plataformas possível.

Utilize serviços encriptados de ponto a ponto para se proteger contra a recolha de dados

A encriptação não serve apenas para proteger os dados de piratas informáticos, mas limita o que pode ser lido em primeiro lugar. Um fornecedor de e-mail que não consegue ler as suas mensagens não as pode analisar para fins publicitários, utilizá-las para formação de IA ou partilhar informações com corretores.

Utilize e-mail encriptado de ponto a ponto para comunicações privadas, armazenamento na nuvem seguro para armazenar e partilhar ficheiros em segurança, e uma VPN(nova janela) sem registos para encriptar a sua atividade de navegação — tudo isto reduz a quantidade de dados que expõe involuntariamente.

Rejeite a recolha de dados para se proteger contra corretores

É possível remover informações pessoais da internet, mesmo de corretores de dados, mas é necessária persistência. Isso não impedirá a recolha futura de dados, mas pode dar-lhe um novo começo. Daqui para a frente, minimizar a sua pegada digital e encriptar os seus dados sempre que possível ajudará a limitar o que é recolhido.

Um diagrama a explicar como se tornar mais anónimo

A anonimização não é uma garantia de privacidade

A principal conclusão é que “anonimizado” nem sempre significa seguro, permanente ou impossível de rastrear. Quanto menos informações pessoais partilhar, menos consistente for nas plataformas e quanto mais controlo mantiver sobre as suas contas e aliases, menos sinais existem para o ligar a si.

Os seus dados podem ser anonimizados no papel, mas a sua proteção mais forte começa antes desse ponto: com o que e onde escolhe partilhar, e com que facilidade isso pode ser ligado ao resto da sua vida digital. Isso também significa ser criterioso quanto aos serviços que utiliza todos os dias e às empresas que os detêm.

As aplicações da Proton têm código aberto, são livres de anúncios e foram concebidas para evitar a monitorização e a formação de IA com qualquer um dos seus dados. Com encriptação ponto a ponto, encriptação de acesso zero e um modelo de negócio financiado exclusivamente pela nossa comunidade de subscritores pagantes, não precisamos de explorar os seus dados, não podemos ler a maior parte deles — e não o queremos fazer.

Explicação sobre a anonimização: se os seus dados são anónimos, porque é que os anunciantes ainda o conseguem segmentar?