Cómo los corredores de datos moldean su vida desde las sombras

Ahora mismo, en algún lugar, una empresa con la que nunca ha hablado, tal vez de la que nunca ha oído hablar, podría estar decidiendo si obtiene un préstamo, un apartamento o incluso cuánto tiempo pasa en prisión.

Ya conocemos el poder de los algoritmos para moldear lo que vemos y con quién hablamos en las redes sociales. Pero eso es solo la superficie. Los algoritmos están profundamente incrustados en docenas de otras industrias y a menudo toman decisiones con impactos que cambian la vida. Y dependen de los datos que obtienen de los corredores de datos.

Pero, ¿cómo funciona? ¿Cuál es exactamente el rol de los corredores de datos en la alimentación de estos algoritmos? ¿Cuáles son las consecuencias en el mundo real de este negocio oscuro? Y lo más importante: ¿Qué podemos hacer para garantizar la equidad y la responsabilidad, especialmente a medida que nos precipitamos hacia un futuro en el que la toma de decisiones impulsada por la IA crece exponencialmente?

El rol oculto de los corredores de datos
Suscripción algorítmica
Verificación de antecedentes de inquilinos basada en datos
Fianza establecida por algoritmo
Problemas comunes con algoritmos alimentados por datos
Debemos solucionar estos problemas antes de que la IA los adopte
Cómo recuperar el control

El rol oculto de los corredores de datos

Los corredores de datos son organizaciones con fines de lucro que recopilan y venden grandes cantidades de datos personales, agregando todo(nueva ventana), desde sus registros financieros y hábitos de compra hasta su navegación web y ubicación en tiempo real. Es una industria masiva y lucrativa. Se estima que 5000 empresas de corredores de datos(nueva ventana) operan en todo el mundo en lo que se ha convertido en un mercado de 270 mil millones de dólares.

A pesar de su tamaño, la industria se enfrenta a prácticamente ninguna supervisión integral(nueva ventana) (al menos en los EE. UU.), lo que significa que los corredores recopilarán y venderán cualquier dato para el que haya demanda. También significa que tienen pocos incentivos para asegurar que los datos que venden sean precisos(nueva ventana).

Más información sobre los corredores de datos

Todo tipo de organizaciones, desde anunciantes hasta departamentos del gobierno de los EE. UU., recurren a los corredores de datos para obtener información granular e íntima. Cada vez más, las empresas utilizan estos datos para alimentar sus algoritmos y tomar decisiones que afectan la vida cotidiana de las personas en todos los EE. UU. La información recopilada y vendida por los corredores de datos, datos que a menudo están plagados de errores, se utiliza para determinar las tasas de interés que pagan las personas, si se les aprueba un préstamo, si pueden alquilar un apartamento o conseguir un trabajo.

Aquí hay tres situaciones en las que la información que nunca supo que compartió podría terminar alterando invisiblemente su trayectoria de vida.

Suscripción algorítmica

Los bancos y otros proveedores de tecnología financiera fueron algunas de las primeras industrias en adoptar algoritmos, usándolos para determinar quién obtiene la aprobación para una hipoteca, un préstamo comercial o tarjetas de crédito. Dependen de las puntuaciones de crédito tradicionales junto con una serie de otros datos alternativos (pagos de servicios públicos, educación, incluso cómo completa formularios) para predecir si alguien pagará el préstamo. El resultado es un sistema de caja negra que puede ofrecer resultados divergentes para candidatos aparentemente similares.

Una investigación de 2021 de The Markup(nueva ventana) encontró que los prestamistas, al comparar a ciertos solicitantes con solicitantes blancos calificados de manera similar, tenían:

40 % más probabilidades de denegar préstamos hipotecarios a solicitantes latinos
50 % más probabilidades de denegar a solicitantes asiáticos/isleños del Pacífico
70 % más probabilidades de denegar a nativos americanos
80 % más probabilidades de rechazar a solicitantes negros

Estas disparidades persistieron incluso después de controlar los factores que la industria tradicionalmente culpa por estas tasas de aprobación más bajas.

Cualquiera que haya trabajado con estadísticas sabe que los modelos son tan buenos como los datos que se les introducen. Si esos datos reflejan, por ejemplo, una historia de marcado rojo (redlining)(nueva ventana), entonces el modelo estará sesgado. Y estos modelos contienen todo tipo de datos, como su feed de redes sociales(nueva ventana) o incluso si escribe su nombre en MAYÚSCULAS(nueva ventana). Como dijo un CEO de tecnología financiera: “Todos los datos son datos de crédito”.

Y con estos algoritmos, a menudo es difícil identificar el factor que condujo a un rechazo. Esto hace imposible que las personas apelen u ofrezcan una corrección, lo que debería ser obligatorio, considerando cuán tangenciales parecen muchos de estos datos y con qué frecuencia los corredores de datos tienen información inexacta y obsoleta.

Verificación de antecedentes de inquilinos basada en datos

Si decide alquilar, no puede escapar de los algoritmos. Los propietarios y administradores de propiedades recurren cada vez más a servicios de selección de inquilinos automatizados, como LeasingDesk o RentGrow, que dependen de corredores de datos para realizar verificaciones de antecedentes de los solicitantes. Estos servicios intentan cuantificar cuán riesgoso podría ser un inquilino al observar las puntuaciones de crédito de los solicitantes, las presentaciones de desalojo, los antecedentes penales y una serie de otros datos personales. El resultado es que a muchas personas se les niega la vivienda por datos cuestionables u obsoletos.

En 2021, la Comisión Federal de Comercio (FTC) multó a AppFolio, un servicio de selección de inquilinos, con 4,25 millones de dólares por vender informes de antecedentes que identificaban erróneamente a los solicitantes(nueva ventana) y contenían información obsoleta, como avisos de desalojo anulados o resueltos. Estos errores tuvieron consecuencias en el mundo real, obligando a las personas a encontrar otro lugar para vivir.

Los algoritmos que generan estas puntuaciones también son una caja negra. En 2021, ProPublica habló con una inquilina(nueva ventana) que tenía una excelente puntuación de crédito (más de 750), sin antecedentes penales y sin desalojos. A pesar de esto, recibió una puntuación de inquilino de 685 sobre 1000, el equivalente a una D, sin explicación. Se vio obligada a pagar un mes extra de alquiler como depósito de seguridad. Al igual que la mayoría de los inquilinos, no tenía idea de por qué su puntuación era tan baja o cómo solucionarlo.

Fianza establecida por algoritmo

Quizás el uso más consecuente de algoritmos ocultos impulsados por corredores de datos se encuentra en el sistema de justicia penal. Los tribunales y las agencias de aplicación de la ley en todo el país han adoptado herramientas algorítmicas de evaluación de riesgos para ayudar a los jueces a decidir si otorgan fianza o libertad previa al juicio a los acusados. En algunos casos, estas herramientas incluso ayudan a decidir la sentencia y la libertad condicional. Los algoritmos toman datos de entrada (como los antecedentes penales de alguien, la edad, el estado laboral y, a veces, la ubicación o los antecedentes familiares) y calculan una puntuación que supuestamente refleja el riesgo de reincidencia o de no comparecencia ante el tribunal.

Los partidarios de estos sistemas afirman que la automatización de estas decisiones garantiza la objetividad. Después de todo, se acusa a los jueces humanos de ser inconsistentes y sesgados todo el tiempo. Sin embargo, al igual que con la suscripción automatizada de préstamos y la selección de inquilinos, estas decisiones dependen de los datos. Si los datos no son confiables, son inexactos o están sesgados, sus hallazgos también lo serán.

En 2016, ProPublica llevó a cabo una investigación de COMPAS(nueva ventana), o Perfil de Gestión de Delincuentes Correccionales para Sanciones Alternativas. Se descubrió que este sistema ampliamente utilizado, desarrollado por la empresa con fines de lucro Northpointe (ahora Equivant Supervision), arrojaba una cantidad abrumadora de falsos positivos para los acusados negros y falsos negativos para los acusados blancos. En otras palabras, los acusados negros que no reincidieron tenían casi el doble de probabilidades que los acusados blancos de ser etiquetados como de alto riesgo por el algoritmo, mientras que los acusados blancos que sí reincidieron fueron etiquetados incorrectamente como de bajo riesgo con mayor frecuencia. (Northpointe ha cuestionado la validez del informe de ProPublica).

De manera similar, en su revisión de 2022 de la IA en el sistema de justicia del Reino Unido(nueva ventana), el Comité de Justicia y Asuntos de Interior de la Cámara de los Lores dijo que existen “preocupaciones sobre los peligros de que el sesgo humano contenido en los datos originales se refleje y se incruste aún más en las decisiones tomadas por los algoritmos”.

Es poco lo que los acusados pueden hacer para impugnar estas puntuaciones, ya que el algoritmo es propietario y las puntuaciones que arrojan rara vez se revelan en los tribunales. Esto significa que la libertad de un acusado puede depender de una puntuación secreta generada por un modelo no revelado que utiliza datos desconocidos y, a menudo, poco fiables.

Problemas comunes con algoritmos alimentados por datos

Siempre que la toma de decisiones está automatizada — ya sea en la suscripción de préstamos, la selección de inquilinos o la evaluación de riesgos de los acusados — surgen varios problemas una y otra vez:

Fiabilidad de los datos: Si los datos que le da a un algoritmo no son fiables, son inexactos o están sesgados, entonces cualquier hallazgo que dé reflejará esas fallas.

Falta de transparencia: Cuando los algoritmos son propietarios, es imposible para el titular de los datos verificar o desafiar su evaluación (y eso asumiendo que son conscientes de la puntuación en primer lugar).

Uso de datos inapropiados y personales: Muchos argumentarían que cómo completa un formulario no debería afectar si obtiene un préstamo y que las personas deberían poder mantener privados otros tipos de datos sensibles y personales si así lo eligen.

Debemos solucionar estos problemas antes de que la IA los adopte

Es importante que corrijamos el rumbo por varias razones. Primero, cada vez más vidas se ven afectadas por los sistemas algorítmicos descritos anteriormente. Segundo, los corredores de datos están recopilando cada vez más información: se prevé que el mercado de corredores de datos valdrá más de $470 mil millones para 2030(nueva ventana). Tercero, los algoritmos se están expandiendo a nuevos sectores todo el tiempo, como la vigilancia predictiva(nueva ventana) y la predicción de riesgos para la salud(nueva ventana), donde se ha descubierto que los algoritmos reforzaron sesgos que ya estaban presentes en los datos.

Pero, con mucho, la razón más importante por la que necesitamos arreglar esto ahora es para evitar esta situación con la IA. Principalmente usé el término algoritmos a lo largo de este artículo, ya que estos sistemas son muy básicos en comparación con las ofertas de IA de hoy, pero funcionan como asistentes de IA básicos para una tarea específica. Y a medida que los chatbots de IA mucho más potentes se integran en más y más sistemas, flujos de trabajo y organizaciones, tienen el potencial de replicar estos tipos de problemas a una escala mucho mayor.

Y el público ya está haciendo sonar la alarma. Más de la mitad del público estadounidense (y profesionales de la IA)(nueva ventana) quiere más control sobre cómo se usa la IA en sus vidas.

Cómo recuperar el control

Los algoritmos ocultos y el ecosistema de corredores de datos que los habilita deben ser controlados. ¿Cómo aseguramos que la tecnología funcione para la sociedad, no en su contra? Los expertos en privacidad y ética de la IA han propuesto un enfoque de múltiples frentes:

Reforma legal y supervisión: Los gobiernos — el gobierno de EE. UU. en particular — deben actualizar las leyes para regular a los corredores de datos y la toma de decisiones algorítmica, cerrando las brechas que permiten la explotación de datos sin control. EE. UU. debe aprobar una ley federal de privacidad. Desafortunadamente, las cosas van en la dirección opuesta. La Oficina de Protección Financiera del Consumidor retiró recientemente una propuesta(nueva ventana) que habría requerido que los corredores de datos mantuvieran registros más precisos y limitaran a quién podían vender datos.

Transparencia algorítmica: Para garantizar la responsabilidad, las empresas que utilizan IA para tomar decisiones que afectan la vida deben revelar los factores clave detrás de sus algoritmos y permitir auditorías independientes. Sin transparencia, los consumidores no pueden entender, desafiar o corregir decisiones automatizadas dañinas. La Ley de IA de la UE(nueva ventana) y la ley local de la ciudad de Nueva York(nueva ventana) son pasos hacia una supervisión significativa.

Supervisión humana y revisión de decisiones: Ninguna decisión que afecte los derechos o el sustento de una persona debe dejarse completamente a un algoritmo; los individuos deben tener derecho a la revisión humana. Al mantener personal capacitado en el circuito y habilitar apelaciones, podemos asegurar que los sistemas automatizados sigan siendo responsables, contextuales y humanos. Esto ya existe en Europa bajo el GDPR(nueva ventana), pero debería extenderse a los EE. UU.

Minimización de datos a nivel personal: Esto puede parecer abrumador, pero hay cosas que puede hacer para limitar cuántos datos reciben los corredores de datos de usted. Pague con efectivo. Use servicios cifrados de extremo a extremo. Navegue por Internet con una VPN de confianza(nueva ventana), bloqueador de anuncios(nueva ventana) y un navegador centrado en la privacidad. Estas medidas simples pueden limitar los datos sin procesar que alimentan decisiones algorítmicas injustas.

Por un internet mejor y un mundo mejor

A medida que los algoritmos influyen cada vez más en las decisiones críticas de la vida — desde la vivienda y el crédito hasta el empleo y la justicia — debemos confrontar los sistemas opacos y los flujos de datos no controlados que los impulsan. Estas tecnologías prometen eficiencia pero a menudo entregan sesgos, exclusión y daños, especialmente cuando son alimentadas por corredores de datos no regulados.

Para cambiar el rumbo, necesitamos leyes que impongan transparencia, limiten las prácticas de datos explotadores y garanticen la supervisión humana donde más importa. Construir un futuro digital más justo significa abrir las cajas negras algorítmicas y poner a las personas de nuevo en el centro de la toma de decisiones. Si actuamos ahora — como ciudadanos, desarrolladores y legisladores — podemos crear un mundo donde la tecnología respete la privacidad, refuerce la equidad y gane nuestra confianza.