Как брокеры данных формируют вашу жизнь из тени

Прямо сейчас где-то компания, с которой вы никогда не разговаривали — возможно, даже никогда о ней не слышали, — может решать, получите ли вы кредит, квартиру или даже сколько времени вы проведете в тюрьме.

Мы уже знаем силу алгоритмов в формировании того, что мы видим, и с кем мы общаемся в социальных сетях. Но это только поверхность. Алгоритмы глубоко встроены в десятки других отраслей и часто принимают решения, меняющие жизнь. И они полагаются на данные, которые получают от брокеров данных.

Но как это работает? Какова именно должность брокеров данных в подпитке этих алгоритмов? Каковы реальные последствия этого теневого бизнеса? И самое главное: что мы можем сделать, чтобы обеспечить справедливость и подотчетность, особенно когда мы мчимся к будущему, в котором принятие решений на основе ИИ растет экспоненциально?

Скрытая роль брокеров данных
Алгоритмический андеррайтинг
Проверка данных арендаторов на основе данных
Залог, устанавливаемый алгоритмом
Общие проблемы с алгоритмами, работающими на данных
Мы должны исправить эти проблемы до того, как их переймет ИИ
Как вернуть контроль

Скрытая роль брокеров данных

Брокеры данных — это коммерческие организации, которые собирают и продают огромные объемы личных данных, агрегируя все(новое окно): от ваших финансовых записей и покупательских привычек до вашего веб-браузинга и местоположения в реальном времени. Это огромная — и прибыльная — индустрия. По оценкам, 5000 компаний-брокеров данных(новое окно) работают по всему миру на рынке, который достиг объема в 270 миллиардов долларов.

Несмотря на свои размеры, индустрия практически не сталкивается с всесторонним надзором(новое окно) (по крайней мере, в США), что означает, что брокеры будут собирать и продавать любые данные, на которые есть спрос. Это также означает, что у них мало стимулов гарантировать точность данных, которые они продают(новое окно).

Подробнее о брокерах данных

Всевозможные организации, от рекламодателей до правительственных ведомств США, обращаются к брокерам данных, чтобы получить детальную, интимную информацию. Все чаще компании используют эти данные для подпитки своих алгоритмов и принятия решений, которые влияют на повседневную жизнь людей по всей территории США. Информация, собранная и проданная брокерами данных — данные, которые часто пестрят ошибками, — используется для определения процентных ставок, которые платят люди, одобрения кредита, возможности арендовать квартиру или получить работу.

Вот три ситуации, в которых информация, которой вы даже не знали, что поделились, могла в конечном итоге невидимо изменить траекторию вашей жизни.

Алгоритмический андеррайтинг

Банки и другие финтех-провайдеры были одними из первых отраслей, внедривших алгоритмы, используя их для определения того, кто получит одобрение на ипотеку, бизнес-кредит или кредитные карты. Они полагаются на традиционные кредитные рейтинги наряду с множеством других альтернативных данных (коммунальные платежи, образование, даже то, как вы заполняете формы), чтобы предсказать, вернет ли кто-то кредит. Результатом является система «черного ящика», которая может выдавать разные результаты для казалось бы похожих кандидатов.

Расследование The Markup(новое окно) 2021 года показало, что кредиторы, сравнивая определенных заявителей с аналогично квалифицированными белыми заявителями:

на 40 % чаще отказывали латиноамериканским заявителям в ипотеке
на 50 % чаще отказывали заявителям из Азии/Тихоокеанских островов
на 70 % чаще отказывали коренным американцам
на 80 % чаще отказывали чернокожим заявителям

Эти диспропорции сохранялись даже после контроля факторов, которые отрасль традиционно винит в этих более низких показателях одобрения.

Любой, кто работал со статистикой, знает, что модели хороши ровно настолько, насколько хороши данные, которые в них загружаются. Если эти данные отражают, например, историю политики «красной черты»(новое окно), то модель будет искажена. И эти модели содержат всевозможные данные, такие как ваша лента социальных сетей(новое окно) или даже то, печатаете ли вы свое имя ЗАГЛАВНЫМИ БУКВАМИ(новое окно). Как сказал один генеральный директор финтех-компании: «Все данные — это кредитные данные».

И с этими алгоритмами часто трудно точно определить фактор, который привел к отказу. Это делает невозможным для людей обжаловать решение или предложить исправление, что должно требоваться, учитывая, насколько косвенными кажутся многие из этих данных и как часто у брокеров данных имеется неточная и устаревшая информация.

Проверка данных арендаторов на основе данных

Если вы решите арендовать жилье, вы не сможете избежать алгоритмов. Арендодатели и управляющие недвижимостью все чаще обращаются к автоматизированным сервисам проверки арендаторов, таким как LeasingDesk или RentGrow, которые полагаются на брокеров данных для выполнения проверки данных заявителей. Эти сервисы пытаются количественно оценить, насколько рискованным может быть арендатор, просматривая кредитные рейтинги заявителей, дела о выселении, судимости и множество других личных данных. В результате многим людям отказывают в жилье из-за сомнительных или устаревших данных.

В 2021 году Федеральная торговая комиссия (FTC) оштрафовала AppFolio, сервис проверки арендаторов, на 4,25 миллиона долларов за продажу отчетов о проверке, которые неправильно идентифицировали заявителей(новое окно) и содержали устаревшую информацию, такую как отмененные или урегулированные уведомления о выселении. Эти ошибки имели реальные последствия, заставляя людей искать другое место для жизни.

Алгоритмы, генерирующие эти баллы, также являются черным ящиком. В 2021 году ProPublica поговорила с арендатором(новое окно), у которого был отличный кредитный рейтинг (более 750), отсутствие судимостей и выселений. Несмотря на это, она получила оценку арендатора 685 из 1000 — эквивалент D — без объяснения причин. Она была вынуждена заплатить за дополнительный месяц аренды в качестве залога. Как и большинство арендаторов, она понятия не имела, почему ее оценка была такой низкой или как это исправить.

Залог, устанавливаемый алгоритмом

Возможно, наиболее значимым использованием скрытых алгоритмов, работающих на брокерах данных, является система уголовного правосудия. Суды и правоохранительные органы по всей стране приняли инструменты алгоритмической оценки рисков, чтобы помочь судьям решать, предоставлять ли залог или досудебное освобождение обвиняемым. В некоторых случаях эти инструменты даже помогают определять приговор и условно-досрочное освобождение. Алгоритмы принимают входные данные (такие как судимость, возраст, статус занятости, а иногда местоположение или семейное происхождение) и рассчитывают балл, который предположительно отражает риск повторного совершения преступления или неявки в суд.

Сторонники этих систем утверждают, что автоматизация этих решений обеспечивает объективность. В конце концов, судей-людей постоянно обвиняют в непоследовательности и предвзятости. Однако, подобно автоматизированному кредитному андеррайтингу и проверке арендаторов, эти решения полагаются на данные. Если данные ненадежны, неточны или предвзяты, их выводы будут такими же.

В 2016 году ProPublica провела расследование COMPAS(новое окно), или Профилирования управления исправительными правонарушителями для альтернативных санкций. Было обнаружено, что эта широко используемая система, разработанная коммерческой компанией Northpointe (ныне Equivant Supervision), выдает огромное количество ложных срабатываний для чернокожих обвиняемых и ложных пропусков для белых обвиняемых. Другими словами, чернокожие обвиняемые, которые не совершали повторных преступлений, почти в два раза чаще, чем белые обвиняемые, помечались алгоритмом как высокорисковые, в то время как белые обвиняемые, которые совершали повторные преступления, чаще ошибочно помечались как низкорисковые. (Northpointe оспорила обоснованность отчета ProPublica.)

Аналогичным образом, в своем обзоре ИИ в системе правосудия Великобритании за 2022 год(новое окно) Комитет Палаты лордов по вопросам юстиции и внутренних дел заявил, что существуют «опасения по поводу опасности человеческой предвзятости, содержащейся в исходных данных, которая отражается и еще больше закрепляется в решениях, принимаемых алгоритмами».

Обвиняемые мало что могут сделать, чтобы оспорить эти баллы, поскольку алгоритм является проприетарным, и баллы, которые он выдает, редко раскрываются в суде. Это означает, что свобода обвиняемого может зависеть от секретного балла, сгенерированного нераскрытой моделью с использованием неизвестных и часто ненадежных данных.

Общие проблемы с алгоритмами, работающими на данных

Всякий раз, когда принятие решений автоматизируется — будь то кредитный андеррайтинг, проверка арендаторов или оценка рисков обвиняемых — снова и снова возникают несколько проблем:

Надежность данных: если данные, которые вы даете алгоритму, ненадежны, неточны или предвзяты, то любые выводы, которые он выдаст, будут отражать эти недостатки.

Отсутствие прозрачности: когда алгоритмы являются проприетарными, субъекту данных невозможно перепроверить или оспорить их оценку (и это при условии, что они вообще знают о балле).

Использование неподходящих и личных данных: многие поспорят, что то, как вы заполняете форму, не должно влиять на то, получите ли вы кредит, и что люди должны иметь возможность сохранять другие типы конфиденциальных личных данных в тайне, если они того пожелают.

Мы должны исправить эти проблемы до того, как их переймет ИИ

Важно скорректировать курс по нескольким причинам. Во-первых, все больше и больше жизней подвергаются влиянию алгоритмических систем, описанных выше. Во-вторых, все больше и больше информации собирается брокерами данных — ожидается, что рынок брокеров данных будет стоить более 470 миллиардов долларов к 2030 году(новое окно). В-третьих, алгоритмы постоянно проникают в новые секторы, такие как предиктивная полиция(новое окно) и прогнозирование рисков для здоровья(новое окно), где было обнаружено, что алгоритмы усиливают предвзятости, которые уже присутствовали в данных.

Но, безусловно, самая важная причина, по которой нам нужно исправить это сейчас, — это избежать этой ситуации с ИИ. Я в основном использовал термин алгоритмы на протяжении всей этой статьи, поскольку эти системы очень просты по сравнению с сегодняшними предложениями ИИ, но они функционируют как базовые ИИ-ассистенты для конкретной задачи. И по мере того, как гораздо более мощные ИИ-чат-боты интегрируются во все большее количество систем, рабочих процессов и организаций, они имеют потенциал для воспроизведения этих типов проблем в гораздо большем масштабе.

И общественность уже бьет тревогу. Более половины населения США (и профессионалов в области ИИ)(новое окно) хотят больше контроля над тем, как ИИ используется в их жизни.

Как вернуть контроль

Скрытые алгоритмы и экосистема брокеров данных, которая их обеспечивает, должны быть обузданы. Как нам гарантировать, что технологии работают на общество, а не против него? Эксперты в области конфиденциальности и этики ИИ предложили многосторонний подход:

Правовая реформа и надзор: Правительства — правительство США в частности — должны обновить законы для регулирования брокеров данных и алгоритмического принятия решений, закрывая пробелы, которые позволяют бесконтрольную эксплуатацию данных. США должны принять федеральный закон о конфиденциальности. К сожалению, все идет в противоположном направлении. Бюро финансовой защиты потребителей недавно отозвало предложение(новое окно), которое потребовало бы от брокеров данных вести более точные записи и ограничивать тех, кому они могут продавать данные.

Алгоритмическая прозрачность: чтобы обеспечить подотчетность, компании, использующие ИИ для принятия решений, влияющих на жизнь, должны раскрывать ключевые факторы, лежащие в основе их алгоритмов, и допускать независимые аудиты. Без прозрачности потребители не могут понять, оспорить или исправить вредные автоматизированные решения. Закон ЕС об ИИ(новое окно) и местный закон Нью-Йорка(новое окно) являются шагами к значимому надзору.

Человеческий надзор и пересмотр решений: ни одно решение, затрагивающее права или средства к существованию человека, не должно быть полностью оставлено на усмотрение алгоритма — люди должны иметь право на человеческий пересмотр. Держа обученный персонал в курсе и включая возможность апелляции, мы можем гарантировать, что автоматизированные системы останутся подотчетными, контекстуальными и гуманными. Это уже существует в Европе в рамках GDPR(новое окно), но должно быть распространено на США.

Минимизация данных на личном уровне: это может показаться ошеломляющим, но есть вещи, которые вы можете сделать, чтобы ограничить объем данных, которые брокеры данных получают от вас. Платите наличными. Используйте зашифрованные сквозным методом сервисы. Просматривайте интернет с помощью надежного VPN(новое окно), блокировщика рекламы(новое окно) и ориентированного на конфиденциальность браузера. Эти простые меры могут ограничить необработанные данные, которые питают несправедливые алгоритмические решения.

За лучший интернет и лучший мир

Поскольку алгоритмы все больше влияют на критически важные жизненные решения — от жилья и кредитов до трудоустройства и правосудия — мы должны противостоять непрозрачным системам и бесконтрольным потокам данных, питающим их. Эти технологии обещают эффективность, но часто приносят предвзятость, исключение и вред, особенно когда они подпитываются нерегулируемыми брокерами данных.

Чтобы изменить курс, нам нужны законы, которые обеспечивают прозрачность, ограничивают эксплуататорские практики использования данных и гарантируют человеческий надзор там, где это важнее всего. Построение более справедливого цифрового будущего означает вскрытие алгоритмических черных ящиков и возвращение людей в центр принятия решений. Если мы будем действовать сейчас — как граждане, разработчики и политики — мы сможем создать мир, в котором технологии уважают конфиденциальность, укрепляют справедливость и заслуживают нашего доверия.