AI 개인정보 우려: 개인 데이터는 얼마나 노출되어 있나요?

흔한 오해는 채팅을 위해 ChatGPT, 이미지 생성을 위해 Midjourney, 또는 동영상 생성을 위해 Sora와 같은 대규모 언어 모델(LLM)을 사용하지 않으면 인공 지능(AI)으로부터 안전하다는 것입니다. 사용하든 안 하든, AI는 이미 여러분의 삶에 영향을 미치고 있습니다.

예를 들어, Android에서 사진을 찍을 때 Google Photos는 얼굴 인식을 사용하여 갤러리의 모든 사람을 자동으로 스캔하고 라벨을 지정합니다. 기본 설정을 변경하지 않고 소셜 미디어에 게시하면 공개 포스트가 생성되어 LLM을 학습시키는 데 사용되는 방대한 데이터 세트로 스크랩될 수 있습니다. 웹사이트나 앱의 맞춤형 광고조차도 브라우징 및 쇼핑 설정을 학습한 AI에 의해 구동됩니다.

그러한 편리함은 개인정보를 희생시키며 삶에 깊은 영향을 미칠 수 있습니다. 자녀의 소셜 피드에서 가져온 20장의 사진만으로도 협박, 괴롭힘 또는 신원 도용에 사용될 수 있는 30초짜리 딥페이크 동영상을 만들기에 충분합니다.

AI가 개인 데이터에 접근할 때 무엇이 위태로운지, 그리고 온라인에서 개인정보를 보호하기 위해 무엇을 할 수 있는지 알아보세요.

AI가 개인정보를 어떻게 위협하나요?
AI 시스템으로부터 데이터를 개인적으로 유지하는 방법

AI가 개인정보를 어떻게 위협하나요?

AI는 너무 많이 수집하고, 너무 많이 추론하고, 너무 많이 공유함으로써 개인정보를 침해할 수 있습니다.

개인 데이터가 수집될 수 있습니다

AI 시스템은 Facebook 포스트(새 창), Flickr 사진(새 창) 또는 Reddit 스레드(새 창)와 같이 공개적으로 사용 가능한 소스에서 스크랩한 방대한 양의 데이터를 학습하여 더 정확해집니다. 일상적인 소셜 미디어 포스트, 가족 사진 및 프로필 세부사항(종종 민감한 정보를 포함하며 원래 개인적 또는 사회적 이유로 공유됨)은 수십억 달러 규모의 LLM 및 얼굴 인식 시스템을 학습시키는 데이터 세트에 포함되었습니다. 이는 거대 기술 기업이 명시적인 동의나 지적 재산권에 대한 고려 없이 온라인 콘텐츠를 AI 사용을 위해 자유롭게 사용할 수 있는 것으로 취급하기 때문에 발생합니다.

재식별될 수 있습니다

기술 기업들은 개인 데이터가 비식별화되거나 가명 처리되면, 즉 이름이나 전화번호와 같은 명백한 식별자가 제거되면 추적할 수 없다고 주장합니다. 하지만 이 보호는 취약합니다. 익명화된 데이터 세트는 소셜 미디어 프로필이나 지리적 위치 추적과 같은 다른 데이터 소스와 교차 참조하여 재식별될 수 있기 때문입니다.

예를 들어, Netflix 사용자(새 창)는 익명 영화 평점을 IMDb 정보와 비교하여 재식별되었습니다. 한 연구(새 창)는 거의 모든 미국인이 15개의 인구 통계학적 마커만 있으면 어떤 데이터 세트에서도 구별될 수 있음을 보여줍니다. AI의 패턴 매칭 능력이 더해지면서 재식별은 누구나 더 빠르고 쉽게 접근할 수 있게 되었습니다.

데이터가 타사와 공유될 수 있습니다

AI 시스템을 사용할 때 데이터가 가입하기 한 회사에만 머무르는 것은 아닙니다. 파트너나 제3자 처리자(들어본 적도 없는 곳일 수 있음)와 공유될 수 있으며, 이들은 자체 약관 및 보안 표준에 따라 데이터를 처리할 수 있습니다.

그 시점에서 개인정보는 신뢰의 문제가 됩니다. 더 이상 정보를 보호하기 위해 알고 있는 회사에만 의존하는 것이 아니라, 각각의 인프라, 정책 및 취약점을 가진 알려지지 않은 외부 행위자들의 전체 사슬에 의존하게 됩니다. 데이터를 만지는 손길 하나하나가 공격 표면을 넓히고 책임 소재를 불분명하게 만듭니다.

예를 들어, OpenAI 파트너와 관련된 보안 사고로 인해 API 사용자 데이터가 노출되었는데, 이는 타사 접근이 시스템에서 가장 약한 연결 고리가 될 수 있음을 보여줍니다.

데이터 삭제 요청이 작동하지 않을 수 있습니다

데이터가 AI 모델을 학습시키면, 모델의 전반적인 행동을 형성하기 때문에 되돌리는 것이 거의 불가능합니다. 모델이 잊어버리게 만드는 기술인 머신 언러닝은 아직 초기 단계이므로 오늘날 유일한 옵션은 모델을 재학습시키는 것입니다. 그리고 회사가 데이터 삭제 요청을 이행했다고 주장하더라도, 이를 확인할 방법(새 창)은 사실상 없습니다.

다른 사람이 개인 채팅을 볼 수 있습니다

ChatGPT(새 창), Meta AI(새 창), Grok(새 창)과 같은 LLM은 공유 기능을 통해 개인적인 대화를 노출시켰으며, 채팅은 검색 엔진에 의해 인덱싱되어 공개적으로 검색 가능하게 되었습니다. 플랫폼들은 이 위험에 대해 충분히 투명하지 않았고, 사용자들은 개인적인 교환이라고 느꼈던 것이 인터넷의 누구에게나 보일 수 있다는 사실을 알지 못했습니다.

부당한 대우를 받을 수 있습니다

AI 시스템이 패턴을 학습하는 데 사용하는 데이터에 역사적 불평등이나 불완전한 데이터 세트로 인한 숨겨진 편향이 포함되어 있다면, AI는 이러한 패턴을 강화하거나 증폭시킬 수 있습니다. 비공개적이고 폐쇄적 소스이며 독립적으로 검토할 수 없는 블랙박스로 운영되는 거대 기술 기업의 비개인적인 AI 시스템의 경우 위험이 더 큽니다. 이러한 시스템은 예측 치안(새 창), 채용(새 창), 의료(새 창) 또는 신용 점수(새 창)에서 자동화된 결정을 내리기 위해 인종, 성별 또는 우편 번호와 같은 민감한 속성을 사용할 수 있습니다.

광고 타겟팅이 점점 더 정교해지고 있습니다

비개인적인 AI는 하이퍼 타겟팅을 가능하게 하여 광고를 더 똑똑하게 만들지만, 종종 가족 전체의 개인정보를 침해합니다. 예를 들어, 데이터 브로커이자 세계 최대 광고 회사인 Publicis는 23억 명의 프로필을 작성하고 가족 설정 및 소득(새 창)과 같은 세부사항을 추적하여 저가 제품으로 타겟팅할지 프리미엄 제품으로 타겟팅할지 결정한다고 주장합니다.

AI 챗봇이 기존 검색을 대체함에 따라, 광고도 이 새로운 공간으로 따라오고 있습니다. 예를 들어, Perplexity는 AI 생성 답변에 광고를 첨부(새 창)하고 있으며 Google Chrome을 인수하기 위해 345억 달러를 제안했습니다. 이는 브라우저의 30억 명 이상의 사용자와 그에 따른 사적인 행동 데이터에 접근하기 위한 움직임입니다.

클라우드 저장공간이 데이터를 노출할 수 있습니다

종단 간 암호화(E2EE)가 없는 클라우드 저장공간 제공업체는 업로드한 사진, 문서 및 민감한 파일에 접근할 수 있습니다. 또한 해당 데이터를 사용하여 AI 도구를 구동하거나, 귀하에 대한 인사이트를 생성하거나, 맞춤형 광고를 보여줄 수 있습니다.

예를 들어 Google Drive는 데이터에 대한 접근 권한을 유지하며 Google Docs의 맞춤법 검사 및 자동 완성과 같은 AI 기능에 이를 사용합니다. Google의 AI 비서인 Gemini가 Google Workspace와 긴밀하게 통합된 상태로 유지된다면, Drive 파일에 대해 수행하는 쿼리도 AI 학습에 제공될 수 있습니다.

마찬가지로 Microsoft는 Word, Excel 및 PowerPoint가 곧 기본적으로 OneDrive에 자동 저장될 것이라고 발표했습니다. 이는 광고나 AI 학습을 위한 데이터의 향후 사용이 불확실한 또 다른 비 E2EE 서비스입니다.

AI는 실수를 할 수 있습니다

자동화된 시스템은 개인적인 커뮤니케이션을 스캔하고 의심스러운 것으로 표시할 수 있습니다. EU의 제안된 채팅 통제법은 WhatsApp 및 Signal과 같은 메시징 서비스가 AI를 사용하여 모든 개인 메시지와 사진을 스캔하여 아동 성적 학대 자료(CSAM)를 탐지하도록 요구할 것입니다.

하지만 이는 의심되는 범죄자뿐만 아니라 모든 사람의 대화를 모니터링한다는 것을 의미합니다. 그리고 역사는 AI가 얼마나 쉽게 실수를 저지르는지 보여줍니다. 예를 들어 한 아버지의 Google 계정은 자녀의 사진을 의사에게 보내기 한 후 해지(새 창)되어 당국에 신고되었습니다. 의사 또는 가족과의 사이에만 있어야 할 내용이 갑자기 기술 기업과 법 집행 기관에 노출될 수 있습니다.

누구나 딥페이크를 만들 수 있습니다

AI can be used to create deepfakes — highly realistic fake photos, videos, or audio. For example, someone could take your social media photos and create a video of you saying or doing things you never did.

악의적인 행위자들은 신원 도용, 사기, 협박 또는 명예 훼손을 위해 딥페이크를 악용하며, 그 위험은 아동에게도 미칩니다. 2019년 범죄자들은 딥페이크 오디오를 사용하여 CEO의 목소리를 흉내(새 창) 내고 직원을 속여 220,000유로를 이체하게 했습니다. 위험은 아이들에게도 미칩니다. 한 사건에서는 포식자가 14세의 딥페이크 이미지(새 창)를 만들어 공유하겠다고 위협하며 돈을 갈취했습니다.

AI 시스템으로부터 데이터를 개인적으로 유지하는 방법

AI 시스템, 특히 거대 기술 기업이 운영하는 비개인적이고 폐쇄적 소스 모델에는 많은 개인정보 우려가 있습니다. 그리고 일단 데이터가 밖으로 나가면 이러한 시스템이 데이터를 스크랩하거나 오용하는 것을 완전히 막을 수는 없지만, 발자국을 줄이고, 책임을 요구하며, 데이터를 악용하지 않는 개인정보 우선 AI를 선택할 수 있습니다. 할 수 있는 일은 다음과 같습니다.

소셜 미디어에서 프로필과 포스트를 비공개로 설정하고, 오래된 업로드를 삭제하고, 공유하기 전에 사진에서 EXIF 데이터를 제거하고, 주소, 자녀의 실명 또는 다니는 학교와 같은 식별 가능한 세부사항 공유를 피하세요. 가족을 위해 인터넷을 관리하는 방법에 대해 더 알아보세요.
앱의 개인정보 보호 설정을 확인하세요. 예를 들어, Meta AI는 Android 및 iOS용 Facebook 앱에서 카메라 롤 사진과 동영상을 스캔하고 있을 수 있습니다.
온라인에 사진을 포스트하기 전에 가족의 얼굴을 흐리게 처리하거나 가려서 딥페이크로부터 보호하세요.
가상 사설망(VPN)(새 창)을 사용하여 IP 주소를 숨기기 하여 디지털 발자국을 마스크하고, 추적당하고 싶지 않은 민감한 정보를 포스트할 때 별칭을 사용하여 이메일 주소를 보호하세요.
보안 메시징을 위한 Signal이나 시크릿 브라우징을 위한 Brave 또는 DuckDuckGo와 같이 데이터를 수익화하지 않는 개인정보 우선 서비스를 사용하세요.
개인적인 사진 및 기밀 문서를 포함하여 가장 민감한 파일을 안전하게 저장하려면 종단 간 암호화된 클라우드 저장공간인 Proton Drive를 사용하세요. 사적인 콘텐츠를 노출할 수 있는 플랫폼과 달리 Drive는 데이터를 스캔하거나 인덱싱하거나 AI 학습에 사용하지 않으며, 공유하기로 선택하더라도 다른 사람이 볼 수 없습니다. 사진을 진정으로 개인적으로 유지하는 것은 딥페이크를 만드는 데 악용될 수 있는 온라인에 노출되지 않는다는 것을 의미하기도 합니다.
Gemini, ChatGPT(새 창), Claude(새 창) 또는 Meta AI와 같이 가능한 경우 언제든지 AI 학습을 거부하세요. 정책은 경고 없이 하루아침에 바뀔 수 있으므로 AI와 개인정보의 이점을 모두 원한다면 로그를 보관하거나 데이터를 학습하지 않는 개인정보 우선 AI 비서(새 창)인 Lumo로 전환하세요.

EU의 AI 법(새 창)과 같은 AI 개인정보에 대한 더 강력한 규정은 인터넷 사용자에게 권력을 되돌려주는 데 매우 중요할 것입니다. 그때까지 최선의 방어책은 온라인에서 공유하는 내용에 주의를 기울이고, 이러한 시스템을 구축하는 기업에 책임을 요구하며, 처음부터 개인정보를 존중하는 투명한 AI 도구(새 창)를 선택하는 것입니다.