Preocupaciones de privacidad de la IA: ¿Cuán expuestos están sus datos personales?

Un concepto erróneo común es que si no usa grandes modelos de lenguaje (LLM) como ChatGPT para chats, Midjourney para generar imágenes o Sora para generar videos, está a salvo de la inteligencia artificial (IA). Ya sea que la use o no, la IA ya toca su vida.

Por ejemplo, cuando toma fotos en Android, Google Photos escanea y etiqueta automáticamente a cada persona en su biblioteca de fotos utilizando reconocimiento facial. Publicar en redes sociales sin cambiar su configuración por defecto crea publicaciones públicas que se pueden extraer en los conjuntos de datos masivos utilizados para entrenar LLM. Incluso los anuncios personalizados en sitios web o en aplicaciones funcionan con IA entrenada en sus preferencias de navegación y compras.

Esa conveniencia cuesta su privacidad y puede tener un impacto profundo en su vida. Veinte fotos tomadas del feed social de su hijo son suficientes para crear un video deepfake de 30 segundos que se puede usar para chantaje, intimidación o robo de identidad.

Esto es lo que está en juego cuando la IA tiene acceso a sus datos personales y lo que puede hacer para proteger su privacidad en línea.

¿Cómo está arriesgando la IA su privacidad?
Cómo mantener sus datos privados de los sistemas de IA

¿Cómo está arriesgando la IA su privacidad?

La IA puede erosionar la privacidad al recopilar demasiado, inferir demasiado y compartir demasiado.

Sus datos personales pueden ser recopilados

Los sistemas de IA se vuelven más precisos al entrenarse con cantidades masivas de datos, a menudo extraídos de fuentes disponibles públicamente, como sus publicaciones de Facebook(nueva ventana), fotos de Flickr(nueva ventana) o hilos de Reddit(nueva ventana). Las publicaciones casuales en redes sociales, fotos familiares y detalles de perfil, que a menudo contienen información confidencial y se comparten originalmente por razones personales o sociales, se han incluido en conjuntos de datos utilizados para entrenar LLM de miles de millones de dólares y sistemas de reconocimiento facial. Esto sucede porque las grandes empresas tecnológicas tratan el contenido en línea como disponible gratuitamente para uso de IA, sin consentimiento explícito ni respeto por la propiedad intelectual.

Puede ser re-identificado

Las empresas de tecnología afirman que sus datos personales no pueden rastrearse hasta usted una vez que se han desidentificado o pseudoanonimizado, lo que significa que se eliminan los identificadores obvios como nombres o números de teléfono. Pero esta protección es frágil, ya que los conjuntos de datos anonimizados pueden re-identificarse cruzándolos con otras fuentes de datos, como perfiles de redes sociales o rastros de geolocalización.

Por ejemplo, los usuarios de Netflix han sido re-identificados(nueva ventana) comparando sus calificaciones de películas anónimas con información de IMDb. Un estudio(nueva ventana) muestra que casi todos los estadounidenses pueden ser identificados en cualquier conjunto de datos con solo 15 marcadores demográficos. Al agregar el poder de coincidencia de patrones de la IA, la re-identificación se ha vuelto más rápida, fácil y accesible para cualquiera.

Sus datos pueden ser compartidos con terceros

Cuando utiliza sistemas de IA, sus datos no siempre se quedan con la empresa en la que se registró. Pueden ser compartidos con socios o procesadores externos, algunos de los que probablemente nunca haya oído hablar, que pueden gestionar sus datos bajo sus propios términos y estándares de seguridad.

En ese punto, la privacidad se convierte en un ejercicio de confianza. Ya no solo confía en la empresa que conoce para proteger su información, sino en toda una cadena de actores externos desconocidos, cada uno con su propia infraestructura, políticas y vulnerabilidades. Cada mano que toca sus datos amplía la superficie de ataque y la responsabilidad se difumina.

Por ejemplo, una vulneración que involucró a un socio de OpenAI llevó a la exposición de datos de usuarios de API, mostrando cómo el acceso de terceros puede convertirse en el eslabón más débil del sistema.

Las solicitudes de eliminación de datos pueden no funcionar

Una vez que sus datos entrenan un modelo de IA, recuperarlos es casi imposible porque moldean el comportamiento general del modelo. El desaprendizaje automático (técnicas para hacer que un modelo olvide) todavía está en sus primeras etapas, por lo que la única opción hoy en día sería volver a entrenar el modelo. E incluso si una empresa afirma haber cumplido con su solicitud de eliminación de datos, prácticamente no hay forma de confirmarlo(nueva ventana).

Otras personas pueden ver sus chats privados

Los LLM como ChatGPT(nueva ventana), Meta AI(nueva ventana) y Grok(nueva ventana) han expuesto conversaciones privadas a través de sus funciones de compartir, con chats siendo indexados por motores de búsqueda y hechos públicamente detectables. Las plataformas no fueron lo suficientemente transparentes sobre este riesgo, dejando a los usuarios inconscientes de que lo que parecía un intercambio privado podría terminar visible para cualquiera en Internet.

Puede ser tratado injustamente

Si los datos utilizados por los sistemas de IA para aprender patrones contienen sesgos ocultos, como desigualdades históricas o conjuntos de datos incompletos, la IA puede reforzar o amplificar esos patrones. Lo que está en juego es mayor con los sistemas de IA no privados de las grandes tecnológicas, que son de código cerrado y operan como cajas negras que no pueden ser revisadas de forma independiente. Estos sistemas pueden usar atributos confidenciales como raza, género o código postal para tomar decisiones automatizadas en vigilancia policial predictiva(nueva ventana), contratación(nueva ventana), atención médica(nueva ventana) o calificación crediticia(nueva ventana).

La segmentación de anuncios es cada vez más precisa

Si bien la IA no privada hace que los anuncios sean más inteligentes al permitir la hipersegmentación, a menudo invade la privacidad de toda su familia. Por ejemplo, Publicis, un corredor de datos y la empresa de publicidad más grande del mundo, afirma perfilar a 2.3 mil millones de personas y rastrear detalles como preferencias familiares e ingresos(nueva ventana) para decidir si dirigirse a ellos con productos económicos o premium.

Con los chatbots de IA reemplazando la búsqueda tradicional, los anuncios nos siguen a este nuevo espacio. Por ejemplo, Perplexity está incrustando anuncios en respuestas generadas por IA(nueva ventana) y ha realizado una oferta de $34.5 mil millones para comprar Google Chrome, una medida destinada a obtener acceso a los más de 3 mil millones de usuarios del navegador y los datos de comportamiento íntimos que conlleva.

El almacenamiento en la nube puede exponer sus datos

Los proveedores de almacenamiento en la nube sin cifrado de extremo a extremo (E2EE) pueden acceder a las fotos, documentos y archivos confidenciales que carga. También pueden usar esos datos para impulsar herramientas de IA, generar información sobre usted o mostrar anuncios personalizados.

Google Drive, por ejemplo, conserva el acceso a sus datos y los utiliza para funciones de IA como revisión ortográfica y autocompletar en Google Docs. Si Gemini, el asistente de IA de Google, permanece estrechamente integrado con Google Workspace, las consultas que realice sobre sus archivos de Drive también podrían alimentar el entrenamiento de IA.

De manera similar, Microsoft ha anunciado que Word, Excel y PowerPoint pronto tendrán guardado automático en OneDrive por defecto, otro servicio sin E2EE donde el uso futuro de sus datos para publicidad o entrenamiento de IA sigue siendo incierto.

La IA puede cometer errores

Los sistemas automatizados podrían escanear sus comunicaciones privadas y marcarlas como sospechosas. La ley propuesta de Chat Control de la UE requeriría que los servicios de mensajería como WhatsApp y Signal utilicen IA para escanear cada mensaje y foto privados para detectar material de abuso sexual infantil (CSAM).

Pero esto significa monitorizar las conversaciones de todos, no solo las de los presuntos delincuentes. Y la historia muestra con qué facilidad la IA puede cometer errores. La cuenta de Google de un padre, por ejemplo, fue cancelada(nueva ventana) y reportada a las autoridades después de enviar una foto de su hijo a un médico. Lo que debería quedar entre usted y su médico, o usted y su familia, podría quedar expuesto repentinamente a empresas de tecnología y a las fuerzas del orden.

Cualquiera puede hacer deepfakes

AI can be used to create deepfakes — highly realistic fake photos, videos, or audio. For example, someone could take your social media photos and create a video of you saying or doing things you never did.

Los malos actores explotan los deepfakes para el robo de identidad, fraude, chantaje o daño reputacional, y los riesgos se extienden a los niños. En 2019, los delincuentes utilizaron audio deepfake para imitar la voz de un CEO(nueva ventana) y engañaron a un empleado para que transfiriera 220,000 €. Los riesgos también se extienden a los niños. En un incidente, un depredador creó una imagen deepfake de un niño de 14 años(nueva ventana) para extorsionar dinero amenazando con compartirla.

Cómo mantener sus datos privados de los sistemas de IA

Existen muchas preocupaciones de privacidad con los sistemas de IA, particularmente los modelos no privados y de código cerrado administrados por grandes tecnológicas. Y aunque no puede evitar por completo que estos sistemas extraigan o hagan un mal uso de sus datos una vez que están disponibles, puede reducir su huella, exigir responsabilidad y elegir IA que priorice la privacidad y que no explote sus datos. Esto es lo que puede hacer:

En las redes sociales, haga que sus perfiles y publicaciones sean privados, elimine cargas antiguas, elimine los datos EXIF de las fotos antes de compartir y evite compartir detalles identificables, como direcciones, nombres completos de niños o las escuelas a las que asisten. Obtenga más información sobre cómo gestionar Internet para su familia.
Verifique los ajustes de privacidad de sus aplicaciones. Por ejemplo, Meta AI podría estar escaneando las fotos de su galería y videos en la aplicación de Facebook para Android e iOS.
Protéjase contra los deepfakes desenfocando o ocultando los rostros de su familia antes de publicar fotos en línea.
Enmascare su huella digital utilizando una VPN(nueva ventana) para ocultar su dirección IP, y use alias para proteger su dirección de correo electrónico al publicar información confidencial que no querría que se rastreara hasta usted.
Utilice servicios que prioricen la privacidad y que no moneticen sus datos, como Signal para mensajería segura y Brave o DuckDuckGo para navegación privada.
Para almacenar de forma segura sus archivos más confidenciales, incluidas fotos privadas y documentos confidenciales, utilice Proton Drive para almacenamiento en la nube con cifrado de extremo a extremo. A diferencia de las plataformas que pueden exponer contenido supuestamente privado, Drive no escanea, indexa ni utiliza sus datos para el entrenamiento de IA, y nadie más puede verlos, incluso cuando elige compartirlos. Mantener sus fotos verdaderamente privadas también significa que no terminarán en línea donde podrían usarse indebidamente para crear deepfakes.
Opte por no participar en el entrenamiento de IA siempre que sea posible, como en Gemini, ChatGPT(nueva ventana), Claude(nueva ventana) o Meta AI. Las políticas pueden cambiar de la noche a la mañana con poca advertencia, por lo que si desea los beneficios tanto de la IA como de la privacidad, cambie a Lumo, nuestro asistente de IA que prioriza la privacidad(nueva ventana) que no mantiene registros ni entrena con sus datos.

Regulaciones más estrictas sobre la privacidad de la IA, como la Ley de IA de la UE(nueva ventana), serán fundamentales para devolver el poder a los usuarios de Internet. Hasta entonces, la mejor defensa es ser consciente de lo que comparte en línea, exigir responsabilidad a las empresas que construyen estos sistemas y elegir herramientas de IA transparentes(nueva ventana) que respeten la privacidad desde el principio.