지금 이 순간 어딘가에서, 대화해 본 적도 없고 들어본 적도 없는 회사가 당신이 대출을 받을지, 아파트를 구할지, 심지어 감옥에서 얼마나 오래 보낼지를 결정하고 있을지도 모릅니다.

우리는 이미 소셜 미디어에서 우리가 무엇을 보고 누구와 이야기할지를 형성하는 알고리즘의 힘을 알고 있습니다. 하지만 그것은 빙산의 일각일 뿐입니다. 알고리즘은 수십 개의 다른 산업에 깊숙이 첨부되어 있으며 종종 삶을 바꾸는 영향을 미치는 결정을 내립니다. 그리고 그들은 데이터 브로커로부터 얻는 데이터에 의존합니다.

하지만 어떻게 작동할까요? 이러한 알고리즘에 데이터를 공급하는 데이터 브로커의 역할은 정확히 무엇일까요? 이 은밀한 사업의 실제 결과는 무엇일까요? 그리고 가장 중요한 질문: 특히 AI 기반 의사 결정이 기하급수적으로 증가하는 미래로 나아가면서 공정성과 책임을 보장하기 위해 우리가 무엇을 할 수 있을까요?

데이터 브로커의 숨겨진 역할

데이터 브로커는 금융 기록과 쇼핑 습관부터 웹 브라우징 및 실시간 위치에 이르기까지 모든 것을 집계(새 창)하여 방대한 양의 개인 데이터를 수집하고 판매하는 영리 조직입니다. 이는 거대하고 수익성 있는 산업입니다. 약 5,000개의 데이터 브로커 기업(새 창)이 전 세계적으로 활동하고 있으며, 2,700억 달러 규모의 시장이 되었습니다.

그 규모에도 불구하고, 이 산업은 사실상 포괄적인 감독이 없습니다(새 창)(적어도 미국에서는). 이는 브로커들이 수요가 있는 모든 데이터를 수집하고 판매할 것임을 의미합니다. 또한 그들이 판매하는 데이터가 정확한지 확인할(새 창) 동기가 거의 없다는 것을 의미합니다.

데이터 브로커에 대해 더 알아보기

광고주부터 미국 정부 부처에 이르기까지 모든 종류의 조직이 세분화된 상세 정보를 얻기 위해 데이터 브로커에게 의존합니다. 점점 더 많은 기업이 이 데이터를 사용하여 알고리즘에 공급하고 미국 전역의 사람들의 일상생활에 영향을 미치는 결정을 내리고 있습니다. 데이터 브로커가 수집하고 판매하는 정보(종종 오류로 가득 찬 데이터)는 사람들이 지불하는 이자율, 대출 승인 여부, 아파트 임대나 취업 가능 여부를 결정하는 데 사용됩니다.

공유한 줄도 몰랐던 정보가 보이지 않게 삶의 궤적을 바꾸게 될 수 있는 세 가지 상황은 다음과 같습니다.

알고리즘 기반 언더라이팅

은행 및 기타 핀테크 제공 업체는 알고리즘을 가장 먼저 채택한 산업 중 하나로, 주택 담보 대출, 기업 대출 또는 신용카드를 승인할 사람을 결정하는 데 사용했습니다. 그들은 전통적인 신용 점수와 함께 유틸리티 요금 납부, 교육, 심지어 양식 작성 방식과 같은 다양한 대체 데이터를 사용하여 누군가가 대출을 상환할지 여부를 예측합니다. 그 결과 겉보기에 비슷해 보이는 후보자들에게 서로 다른 결과를 제공할 수 있는 블랙박스 시스템이 탄생했습니다.

2021년 The Markup의 조사(새 창)에 따르면, 대출 기관이 특정 신청자를 비슷한 자격을 갖춘 백인 신청자와 비교할 때 다음과 같은 경향이 있었습니다:

  • 라틴계 신청자에게 주택 대출을 거부할 가능성이 40% 더 높음
  • 아시아/태평양 섬 주민 신청자에게 거부할 가능성이 50% 더 높음
  • 아메리카 원주민에게 거부할 가능성이 70% 더 높음
  • 흑인 신청자를 거부할 가능성이 80% 더 높음

업계가 전통적으로 이러한 낮은 승인율의 원인으로 지목하는 요인을 통제한 후에도 이러한 격차는 지속되었습니다.

통계 작업을 해본 사람이라면 모델은 입력되는 데이터만큼만 훌륭하다는 것을 압니다. 예를 들어, 데이터가 레드라이닝(redlining)(새 창)의 역사를 반영한다면 모델은 편향될 것입니다. 그리고 이러한 모델에는 소셜 미디어 피드(새 창)이름을 모두 대문자로 입력하는지(새 창)와 같은 온갖 종류의 데이터가 포함됩니다. 한 핀테크 CEO가 말했듯이, “모든 데이터는 신용 데이터입니다.”

그리고 이러한 알고리즘을 사용하면 거부로 이어진 요인을 정확히 찾아내기가 어려운 경우가 많습니다. 이 데이터의 상당 부분이 얼마나 관계없어 보이는지, 그리고 데이터 브로커가 부정확하고 오래된 정보를 얼마나 자주 가지고 있는지를 고려할 때 수정이 필요함에도 불구하고, 사람들이 이의를 제기하거나 수정을 요청하는 것을 불가능하게 만듭니다.

데이터 기반 세입자 배경 조사

임대를 결정하면 알고리즘을 피할 수 없습니다. 집주인과 부동산 관리자는 신청자에 대한 배경 조사를 수행하기 위해 데이터 브로커에 의존하는 LeasingDesk나 RentGrow와 같은 자동화된 세입자 심사 서비스에 점점 더 의존하고 있습니다. 이러한 서비스는 신청자의 신용 점수, 퇴거 소송 기록, 범죄 기록 및 기타 다양한 개인 데이터를 살펴봄으로써 세입자가 얼마나 위험할지 정량화하려고 시도합니다. 그 결과 많은 사람들이 의심스럽거나 오래된 데이터 때문에 주거를 거부당합니다.

2021년 연방거래위원회(FTC)는 AppFolio라는 세입자 심사 서비스에 신청자를 잘못 식별하고(새 창) 뒤집히거나 해결된 퇴거 통지와 같은 오래된 정보가 포함된 배경 보고서를 판매한 혐의로 425만 달러의 벌금을 부과했습니다. 이러한 실수는 사람들을 다른 살 곳을 찾도록 강요하는 등 현실적인 결과를 초래했습니다.

이러한 점수를 생성하는 알고리즘 역시 블랙박스입니다. 2021년 ProPublica는 우수한 신용 점수(750점 이상)(새 창), 범죄 기록 없음, 퇴거 기록이 없는 한 세입자와 인터뷰했습니다. 그럼에도 불구하고 그녀는 아무런 설명 없이 1,000점 만점에 685점(D에 해당)의 세입자 점수를 받았습니다. 그녀는 보증금으로 한 달치 임대료를 추가로 지불해야 했습니다. 대부분의 세입자처럼 그녀는 점수가 왜 그렇게 낮은지, 어떻게 고쳐야 하는지 전혀 몰랐습니다.

알고리즘에 의한 보석금 책정

아마도 숨겨진 데이터 브로커 기반 알고리즘의 가장 중대한 사용은 형사 사법 시스템일 것입니다. 전국의 법원과 법 집행 기관은 판사가 피고인에게 보석이나 재판 전 석방을 허가할지 결정하는 데 도움을 주기 위해 알고리즘 위험 평가 도구를 채택했습니다. 어떤 경우에는 이러한 도구가 양형과 가석방을 결정하는 데 도움이 되기도 합니다. 알고리즘은 입력 데이터(범죄 기록, 나이, 고용 상태, 때로는 위치 또는 가족 배경 등)를 가져와 그 사람의 재범 위험이나 법정 출석 실패 위험을 반영한다고 하는 점수를 계산합니다.

이러한 시스템의 지지자들은 이러한 결정을 자동화하면 객관성이 보장된다고 주장합니다. 결국 인간 판사들은 항상 일관성이 없고 편향적이라는 비난을 받습니다. 그러나 자동화된 대출 심사 및 세입자 심사와 마찬가지로 이러한 결정은 데이터에 의존합니다. 데이터가 신뢰할 수 없거나, 부정확하거나, 편향되어 있다면 그 결과도 마찬가지일 것입니다.

2016년 ProPublica는 COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)에 대한 조사를 실시(새 창)했습니다. 영리 기업인 Northpointe(현재 Equivant Supervision)가 개발한 이 널리 사용되는 시스템은 흑인 피고인에게는 압도적인 수의 오탐(false positive)을, 백인 피고인에게는 미탐(false negative)을 제공하는 것으로 밝혀졌습니다. 다시 말해, 재범하지 않은 흑인 피고인은 백인 피고인보다 알고리즘에 의해 고위험군으로 분류될 가능성이 거의 두 배나 높은 반면, 재범을 저지른 백인 피고인은 저위험군으로 잘못 분류되는 경우가 더 많았습니다. (Northpointe는 ProPublica 보고서의 타당성에 이의를 제기했습니다.)

마찬가지로, 2022년 영국 사법 시스템의 AI 검토(새 창)에서 상원 법무 및 내무 위원회는 “원본 데이터에 포함된 인간의 편향이 알고리즘에 의한 결정에 반영되고 더 깊이 첨부될 위험에 대한 우려”가 있다고 말했습니다.

알고리즘은 독점적이고 뱉어내는 점수가 법정에서 거의 공개되지 않기 때문에 피고인이 이러한 점수에 이의를 제기하기 위해 할 수 있는 일은 거의 없습니다. 즉, 피고인의 자유가 알려지지 않고 종종 신뢰할 수 없는 데이터를 사용하는 공개되지 않은 모델에 의해 생성된 비밀 점수에 달려 있을 수 있다는 것입니다.

데이터 기반 알고리즘의 일반적인 문제

대출 심사, 세입자 심사, 피고인 위험 평가 등 의사 결정이 자동화될 때마다 몇 가지 문제가 반복해서 발생합니다:

데이터의 신뢰성: 알고리즘에 제공하는 데이터가 신뢰할 수 없거나, 부정확하거나, 편향된 경우, 알고리즘이 제공하는 결과에도 그러한 결함이 반영됩니다.

투명성 부족: 알고리즘이 독점적인 경우, 데이터 주체가 평가를 다시 확인하거나 이의를 제기하는 것이 불가능합니다(애초에 점수를 알고 있다고 가정할 때).

부적절하고 개인적인 데이터 사용: 많은 사람들은 양식 작성 방식이 대출 여부에 영향을 미쳐서는 안 되며, 사람들이 원할 경우 다른 유형의 민감한 개인 데이터를 비공개로 유지할 수 있어야 한다고 주장합니다.

AI가 채택하기 전에 이 문제들을 해결해야 합니다

여러 가지 이유로 경로를 수정하는 것이 중요합니다. 첫째, 위에서 설명한 알고리즘 시스템의 영향을 받는 삶이 점점 더 많아지고 있습니다. 둘째, 점점 더 많은 정보가 데이터 브로커에 의해 휩쓸려가고 있습니다. 데이터 브로커 시장은 2030년까지 4,700억 달러(새 창) 이상의 가치가 있을 것으로 예상됩니다. 셋째, 알고리즘은 예측 치안(새 창)건강 위험 예측(새 창)과 같은 새로운 분야로 계속 확장되고 있으며, 여기서 알고리즘은 데이터에 이미 존재하는 편향을 강화하는 것으로 밝혀졌습니다.

하지만 지금 이 문제를 해결해야 하는 가장 중요한 이유는 AI로 인한 이러한 상황을 피하기 위해서입니다. 저는 이 글 전체에서 주로 알고리즘이라는 용어를 사용했는데, 이러한 시스템은 오늘날의 AI 제품에 비하면 매우 기본적이지만 특정 작업에 대해서는 기본적인 AI 비서 역할을 합니다. 그리고 훨씬 더 강력한 AI 챗봇이 점점 더 많은 시스템, 워크플로 및 조직에 통합됨에 따라 이러한 유형의 문제를 훨씬 더 큰 규모로 복제할 잠재력이 있습니다.

그리고 대중은 이미 경보를 울리고 있습니다. 미국 대중(및 AI 전문가)(새 창)의 절반 이상이 자신의 삶에서 AI가 사용되는 방식에 대해 더 많은 통제권을 원합니다.

통제권을 되찾는 방법

숨겨진 알고리즘과 이를 가능하게 하는 데이터 브로커 생태계를 제어해야 합니다. 기술이 사회에 반하는 것이 아니라 사회를 위해 작동하도록 하려면 어떻게 해야 할까요? 개인정보 보호 및 AI 윤리 전문가들은 다각적인 접근 방식을 제안했습니다:

법적 개혁 및 감독: 정부, 특히 미국 정부는 데이터 브로커를 규제하는 법률과 알고리즘 의사 결정을 업데이트하여 확인되지 않은 데이터 착취를 허용하는 허점을 메워야 합니다. 미국은 연방 개인정보 보호법을 통과시켜야 합니다. 불행히도 상황은 반대 방향으로 가고 있습니다. 소비자 금융 보호국(Consumer Finance Protection Bureau)은 최근 제안을 철회(새 창)했는데, 이 제안은 데이터 브로커가 더 정확한 기록을 유지하고 데이터를 판매할 수 있는 대상을 제한하도록 요구했을 것입니다.

알고리즘 투명성: 책임을 보장하기 위해 AI를 사용하여 삶에 영향을 미치는 결정을 내리는 기업은 알고리즘 배후의 주요 요인을 공개하고 독립적인 감사를 허용해야 합니다. 투명성 없이는 소비자가 해로운 자동화된 결정을 이해하거나, 이의를 제기하거나, 수정할 수 없습니다. EU의 AI 법(AI Act)(새 창)뉴욕시의 현지 법(새 창)은 의미 있는 감독을 향한 단계입니다.

인간의 감독 및 결정 검토: 개인의 권리나 생계에 영향을 미치는 어떤 결정도 전적으로 알고리즘에 맡겨져서는 안 됩니다. 개인은 인간의 검토를 받을 권리가 있어야 합니다. 훈련된 직원을 참여시키고 이의 제기를 활성화함으로써 자동화된 시스템이 책임감 있고, 맥락을 고려하며, 인도적으로 유지되도록 할 수 있습니다. 이는 이미 유럽에서는 GDPR(새 창)하에 존재하지만, 미국으로 확장되어야 합니다.

개인 수준에서의 데이터 최소화: 압도적으로 보일 수 있지만, 데이터 브로커가 귀하로부터 받는 데이터의 양을 제한하기 위해 할 수 있는 일들이 있습니다. 현금으로 지불하세요. 종단 간 암호화된 서비스를 사용하세요. 신뢰할 수 있는 VPN(새 창), 광고 차단기(새 창), 개인정보 보호 중심 브라우저로 인터넷을 검색하세요. 이러한 간단한 조치들로 불공정한 알고리즘 결정에 연료를 공급하는 원시 데이터를 제한할 수 있습니다.

더 나은 인터넷과 더 나은 세상을 위하여

주택 및 신용에서 고용 및 사법에 이르기까지 알고리즘이 중요한 인생 결정에 점점 더 영향을 미침에 따라, 우리는 이를 구동하는 불투명한 시스템과 확인되지 않은 데이터 흐름에 맞서야 합니다. 이러한 기술은 효율성을 약속하지만, 특히 규제되지 않은 데이터 브로커에 의해 연료가 공급될 때 편향, 배제 및 해로움을 전달하는 경우가 많습니다.

경로를 바꾸려면 투명성을 강제하고, 착취적인 데이터 관행을 제한하며, 가장 중요한 곳에서 인간의 감독을 보장하는 법률이 필요합니다. 더 정의로운 디지털 미래를 건설한다는 것은 알고리즘 블랙박스를 열고 사람들을 다시 의사 결정의 중심에 두는 것을 의미합니다. 시민, 개발자, 정책 입안자로서 지금 행동한다면 기술이 개인정보를 존중하고, 공정성을 강화하며, 신뢰를 얻는 세상을 만들 수 있습니다.