데이터 익명화가 귀하를 익명으로 만들어주지 못하는 이유입니다.

기업이 귀하의 개인 데이터를 익명화했다고 말하면 귀하의 온라인 신원이 영원히 삭제된 것처럼 들립니다. 귀하의 정보는 데이터 세트에서 노이즈가 되므로 경계심을 늦춰도 된다고 생각할 수 있습니다. 하지만 꼭 그렇지는 않습니다.

익명화된 데이터는 이름이나 집 주소와 같이 가장 명확한 개인 식별자를 삭제한 데이터입니다. 하지만 서로 연결된 데이터베이스로 가득 찬 세상에서는 겉보기에 관련 없어 보이는 몇 가지 세부사항만으로도 누군가를 추적할 수 있습니다.

연구(새 창)에 따르면 수백만 명의 데이터 세트에서 99.98%의 사람을 식별하는 데 필요한 데이터 포인트는 단 15개뿐입니다. AI가 귀하의 온라인 활동 전반에 걸쳐 점들을 연결함에 따라 “익명”과 “식별됨” 사이의 격차는 줄어들고 있습니다.

데이터 익명화가 실제로 무엇을 의미하는지, 그리고 개인정보를 더 잘 보호하기 위해 귀하가 무엇을 할 수 있는지 살펴보겠습니다.

데이터 익명화란 무엇인가요?
익명화 vs 가명화
일반적인 데이터 익명화 기술
기업의 익명 데이터 사용 방식
데이터 재식별, 또는 익명 데이터가 진정으로 익명이 아닌 이유
재식별을 더 빠르고 저렴하게 만드는 AI
데이터 최소화 및 암호화를 통한 개인정보 보호
익명화는 개인정보 보호를 보장하지 않습니다

데이터 익명화란 무엇인가요?

데이터 익명화는 데이터 포인트에서 귀하의 이름, 이메일 주소, 연락처 또는 생일과 같이 개인을 식별할 수 있는 모든 것을 삭제하는 되돌릴 수 없는 과정입니다. 그 목표는 기록과 개인 간의 링크를 가능한 한 많이 절단하는 것입니다.

하지만 익명화 후에도 데이터에는 귀하의 대략적인 위치, 탐색 습관 및 연령대와 같은 간접적인 단서가 여전히 포함되어 있습니다. 개별적으로 보면 이러한 세부사항은 거의 무해하지만, 모두 합치면 귀하를 가리키는 패턴을 형성합니다.

생체 정보와 같은 일부 유형의 데이터는 진정으로 익명화하기가 특히 어렵거나 불가능합니다. 안전한 사용자 이름을 생성할 수는 있지만 사람의 얼굴, 지문 또는 홍채 패턴을 바꿀 수는 없습니다.

데이터가 진정으로 익명화되면 GDPR과 같은 개인정보 보호법에 따라 더 이상 개인 데이터로 간주되지 않습니다. 즉, 기업은 개인 데이터에 적용되는 동의 및 보호 요구 사항 없이 해당 데이터를 사용할 수 있습니다.

그러나 GDPR의 전문(Recital) 26조(새 창)는 높은 기준을 제시합니다. 즉, 재식별에 합리적으로 사용될 수 있는 다른 정보와 방법을 고려하더라도 데이터가 더 이상 개인을 식별해서는 안 됩니다. 따라서 남은 데이터가 여전히 누군가를 가리키고 있다면 이름이나 이메일 주소를 삭제하는 것만으로는 충분하지 않습니다.

익명화 vs 가명화

익명화는 식별 가능한 정보를 영구적으로 삭제하여 개인이 추적되지 않도록 보장하는 반면, 가명화는 해당 데이터를 라벨, 토큰 또는 코드로 대체합니다. 원래의 신원은 안전한 키나 조회 테이블에 별도로 저장되지만, 적절한 접근 권한이 있으면 해당 라벨을 실제 인물과 다시 연결할 수 있습니다.

가명화의 예로는 환자 이름을 코드로 대체하는 의료 연구가 있습니다. 연구자는 여전히 데이터를 추적할 수 있지만, 키를 보유한 권한이 있는 인원만 이를 다시 개인과 연결할 수 있습니다.

이 차이는 단순하지만 중요합니다. 가명화는 여전히 누군가와 연결될 수 있기 때문에 GDPR과 같은 규정에 따라 개인 데이터로 간주됩니다. 반면 익명화된 데이터는 재식별이 더 이상 합리적으로 가능하지 않은 경우에만 해당 의무에서 제외됩니다.

일반적인 데이터 익명화 기술

기업은 데이터 사용 계획에 따라 서로 다른 익명화 방법을 사용합니다. 다음은 몇 가지 일반적인 방법입니다.

데이터 마스킹은 정보를 가짜 데이터로 대체하는 것으로, 예를 들어 전화번호를 허구의 번호로 교체하는 방식입니다.

일반화는 정확한 나이 대신 연령대를 사용하는 것처럼 데이터를 덜 구체적으로 만듭니다.

데이터 스와핑은 레코드 전반에 걸쳐 정보를 섞어서 더 이상 원래의 인물과 일치하지 않도록 합니다.

데이터 섭동은 숫자 반올림과 같이 데이터를 변경하여 데이터의 추세는 유지하면서 개별 세부사항을 모호하게 만듭니다.

합성 데이터는 실제 레코드를 직접 사용하지 않고 원본 데이터 세트의 패턴을 모방한 인공 데이터에 의존합니다.

이러한 기술은 개인정보 보호 위험을 줄일 수 있지만, 그 효과는 얼마나 잘 적용되었느냐에 전적으로 달려 있습니다. 그렇다 하더라도 누군가를 식별할 수 있는 모든 단서를 완벽히 제거하지는 못할 수도 있습니다.

기업의 익명화 데이터 활용 방식

익명화된 데이터는 기업이 귀하의 동의 없이 법적으로 원하는 대로 사용할 수 있기 때문에 가치가 높습니다. 일반적인 용도는 다음과 같습니다.

분석 및 개발: 기업은 사용자 행동을 연구하여 제품을 개선하고, 트렌드를 측정하며, 비즈니스 의사 결정을 내리는 데 참고합니다.

광고: 이름이 포함되지 않더라도 검색 및 구매 패턴을 활용하여 맞춤형 광고를 위한 타겟 오디언스 세그먼트를 구축할 수 있습니다.

데이터 브로커: 일부 데이터는 데이터 브로커에 의해 집계, 패키징 및 재판매됩니다. 이러한 기업은 앱, 웹사이트, 공공 기록, 크레딧 데이터 등의 정보를 결합하여 상세한 프로필을 작성하고, 법적 감시가 거의 없는 상태에서 이를 원하는 누구에게나 판매합니다.

AI 모델 학습: 대규모 데이터 세트는 사용자 활동에서 추출한 데이터, 구매한 데이터 세트, 공공 또는 스크래핑된 소스 등을 포함하여 AI 시스템을 학습시키는 데 자주 사용됩니다.

의학 연구: 일부 국가(새 창)에서는 익명화된 의료 데이터를 제약 회사에 판매하거나 연구원과 공유할 수 있습니다.

익명화된 데이터는 서비스 개선이나 연구 지원과 같이 좋은 목적으로 사용될 수 있습니다. 문제는 데이터 브로커와 광고주가 사람들의 정보를 수집, 결합, 공유, 재패키징 및 판매하도록 강력한 상업적 동기를 부여하며, 흔히 당사자가 충분히 이해하지 못하거나 의미 있게 동의하지 않는 방식으로 이루어진다는 점입니다. 나중에 데이터 삭제를 원하는 사람들에게도 그 과정은 결코 간단하지 않습니다.

캘리포니아 개인정보 규제 당국이 DROP(새 창) 시스템을 만든 이유는 수백 명의 데이터 브로커로부터 데이터를 삭제하는 것이 개인이 관리하기에 역사적으로 어려웠기 때문입니다. AI 학습 데이터의 경우 훨씬 더 어려운데, 데이터가 이미 학습된 모델에 영향을 미친 후에는 이를 삭제하는 데 AI 기업들이 선호하지 않는(새 창) 머신 언러닝(새 창) 기술이 필요할 수 있기 때문입니다.

데이터 재식별, 또는 익명화된 데이터가 진정으로 익명이 아닌 이유

누군가 귀하의 동네에 살고 흰색 차를 모는 30대 남성을 찾고 있다고 말한다면, 귀하는 이미 그 사람이 누구인지 짐작할 수 있을 것입니다. 이러한 세부사항 중 어느 것도 개별적으로는 그 사람을 식별할 수 없지만, 결합되면 다른 모든 사람을 제외함으로써 가능성을 좁히는 데 도움이 됩니다. 익명화된 데이터도 같은 방식으로 작동합니다. 이름과 연락처 정보가 삭제되더라도 충분한 세부사항이 결합되면 남은 정보만으로도 정체가 드러날 수 있습니다.

이러한 패턴을 소셜 미디어나 공공 기록과 같은 다른 소스와 대조하면, 익명으로 간주되었던 데이터를 특정 개인과 연결하는 것이 가능해집니다. 이를 재식별이라고 하며, 이는 종종 생각보다 쉽습니다.

연구자 라타냐 스위니(Latanya Sweeney)는 인구 통계, 진단명, 청구 세부사항과 같은 간접 식별자가 포함된 병원 데이터 세트(새 창)를 50달러에 구입했습니다. 이름과 같은 직접적인 세부사항은 포함되지 않았습니다. 그녀는 이 데이터를 입원 관련 지역 뉴스 기사와 대조함으로써 환자의 43%를 해당 기록과 일치시킬 수 있었으며, 여기에는 보도된 오토바이 사고 환자의 전체 의료 기록도 포함되었습니다.

AI로 인해 더 빠르고 저렴해진 비익명화

익명 데이터의 재식별을 막는 유일한 방법이 시간, 인내심, 수동 대조뿐이라면, AI의 등장으로 그러한 부수적인 보호 수단은 무너지고 있습니다.

연구에 따르면 대규모 언어 모델(LLM)은 여러 플랫폼에 걸친 게시물을 분석하고 공공 정보를 대조하여 익명 사용자를 놀라운 정확도로 식별할 수 있습니다. 대규모 비익명화에 관한 한 연구(새 창)에서 LLM 기반 방식은 대상의 최대 68%를 식별해냈으며, 일치하는 대상을 찾았을 때의 정확도는 90%에 달했습니다.

스위니는 수십만 개의 기록이 담긴 데이터 세트를 단돈 50달러에 사야 했습니다. 오늘날 LLM은 프로필당 1~4달러의 비용으로 비익명화 작업을 자동으로 수행할 수 있습니다. 또한 정제되고 구조화된 데이터 세트가 필요하지 않으며 일상적인 포스트와 댓글에서도 패턴을 찾아낼 수 있습니다.

한 연구원의 말에 따르면 다음과 같습니다.

“귀하가 게시한 포스트를 통해 똑똑한 조사관 팀이 귀하가 누구인지 알아낼 수 있을지 자문해 보십시오. 만약 그렇다면 LLM 에이전트도 똑같이 할 수 있을 가능성이 높으며, 그 비용은 계속 낮아지고 있습니다.”

데이터 최소화 및 암호화로 개인정보 보호

데이터의 익명화만으로는 충분하지 않습니다. 여러 정보가 연결되면 재식별이 발생할 수 있기 때문입니다. 스스로를 보호하는 가장 좋은 방법은 디지털 발자국을 최소화하여 재식별을 어렵게 만드는 것입니다.

완전히 자취를 감출 필요는 없지만, 무엇을 어떻게 공유할지에 대해 더 신중해야 합니다. 몇 가지 실용적인 팁은 다음과 같습니다.

신원을 분리하여 교차 참조로부터 보호

모든 플랫폼에서 동일한 이메일과 사용자 이름을 사용하면 귀하의 세부사항을 하나로 합치기가 쉽습니다. 각기 다른 계정에 대해 서로 다른 사용자 이름을 생성하는 것은 간단하지만, 이메일 별칭을 사용하지 않는 한 모든 용도에 고유한 이메일 주소를 사용하는 것은 매우 힘든 일일 수 있습니다.

별칭은 실제 이메일 주소와 신원을 노출하지 않고 메인 받은 편지함으로 메시지를 전달하는 별도의 주소를 생성합니다. 서비스마다 고유한 이메일 별칭을 사용하면 정보 유출이나 판매가 어디에서 발생했는지 확인할 수 있습니다.

예를 들어, 기업 A만을 위한 별칭을 생성했는데 나중에 기업 B로부터 해당 별칭으로 이메일을 받는다면, 기업 A가 귀하의 주소를 공유, 판매, 유출했거나 관리에 실패했음을 알 수 있습니다. 이 경우 메인 받은 편지함이나 다른 별칭에 영향을 주지 않고 해당 별칭만 비활성화할 수 있습니다.

식별 가능한 패턴을 방지하기 위해 일관성 없게 행동하기

플랫폼 전반에 걸쳐 귀하의 세부사항이 일관될수록 귀하에 대한 고유한 프로필을 구축하기가 더 쉬워집니다. 가능한 경우, 필요한 것보다 더 많은 정보를 제공하지 마십시오.

예를 들어, 정확한 도시 대신 일반적인 국가 정보를 사용하고, 나이를 반올림하며, 선택적 필드는 건너뛰십시오. 또한 반복되는 구문, 문장 부호 또는 흔한 오타와 같이 작성 스타일에서 작은 변화를 주어 자동화된 식별을 제한하는 것도 고려해 보십시오.

AI 분석으로부터 보호하기 위해 디지털 발자국 제한

LLM은 포스트와 글쓰기 패턴을 찾아내어 사람을 식별할 수 있습니다. 귀하의 신원과 연결된 공개 콘텐츠가 적을수록 분석할 자료도 줄어듭니다. 포스트를 작성할 때 단순한 사실뿐만 아니라 습관, 의견, 반복되는 주제 등 귀하를 돋보이게 하는 개인적인 세부사항을 얼마나 드러내는지 고려해 보십시오. 가능한 한 많은 플랫폼에서 AI 학습을 거부하시기 바랍니다.

데이터 수집으로부터 보호하기 위해 종단간 암호화 서비스 사용

암호화는 해커로부터 데이터를 보호할 뿐만 아니라, 처음부터 읽을 수 있는 정보를 제한합니다. 귀하의 메시지를 읽을 수 없는 이메일 제공 업체는 광고 목적으로 메시지를 스캔하거나, AI 학습에 사용하거나, 브로커와 인사이트를 공유할 수 없습니다.

개인적인 통신을 위해 종단간 암호화된 이메일을 사용하고, 파일의 안전한 저장 및 공유를 위해 보안 클라우드 저장공간을 사용하며, 브라우징 활동을 암호화하기 위해 로그를 저장하지 않는 VPN(새 창)을 사용하십시오. 이 모든 기능은 원치 않게 노출되는 데이터의 양을 줄여줍니다.

브로커로부터 보호하기 위해 데이터 수집 거부

데이터 브로커를 포함하여 인터넷에서 개인 정보를 삭제하는 것이 가능하지만, 끈기가 필요합니다. 이것이 미래의 데이터 수집까지 막지는 못하겠지만, 새로운 시작을 할 수 있게 해줍니다. 앞으로는 디지털 발자국을 최소화하고 가능한 경우 데이터를 암호화함으로써 수집되는 정보를 제한하는 데 도움이 될 것입니다.

익명화는 개인정보 보호를 보장하지 않습니다

가장 중요한 점은 “익명화”가 항상 안전하거나 영구적이며 추적이 불가능하다는 것을 의미하지는 않는다는 것입니다. 개인 정보를 덜 공유하고, 플랫폼 간에 덜 일관적으로 행동하며, 계정과 별칭을 더 철저히 관리할수록 귀하와 연결될 수 있는 신호는 줄어듭니다.

귀하의 데이터는 서류상으로는 익명화될 수 있지만, 가장 강력한 보호는 그 이전 단계에서 시작됩니다. 즉, 귀하가 무엇을 어디에 공유하기로 선택하는지, 그리고 그것이 귀하의 다른 디지털 생활과 얼마나 쉽게 연결될 수 있는지에 달려 있습니다. 이는 또한 귀하가 매일 사용하는 서비스와 그 소유 기업에 대해 의도적인 선택을 하는 것을 의미합니다.

Proton 앱은 오픈 소스이며 광고가 없고, 귀하의 어떤 데이터에 대해서도 추적이나 AI 학습을 하지 않도록 설계되었습니다. 종단 간 암호화, 제로 액세스 암호화, 그리고 유료 구독자 커뮤니티를 통해서만 운영되는 비즈니스 모델을 갖춘 당사는 귀하의 데이터를 이용할 필요가 없으며, 데이터 대부분을 읽을 수도 없고, 읽기를 원하지도 않습니다.