Come le aziende di intelligenza artificiale sembrano infrangere il GDPR

Stiamo vivendo in mezzo a una delle più grandi corse all’oro tecnologiche della storia recente. Il chatbot di OpenAI ha raggiunto 100 milioni di utenti in due mesi. Cercando di stare al passo, Google ha introdotto il proprio chatbot IA e Microsoft ha aggiunto un chatbot al suo motore di ricerca Bing (con… risultati misti(nuova finestra)).

Come in una vera corsa all’oro, la gara per perfezionare l’IA si basa su uno sfruttamento disordinato delle risorse. Solo che, invece di abbattere foreste o costruire dighe, queste aziende di IA stanno sfruttando i nostri dati personali.

Se hai mai scritto un post su un blog, lasciato una recensione online di un prodotto o postato su siti come Reddit e Stack Overflow, probabilmente hai contribuito senza saperlo con i tuoi dati all’addestramento di un modello di IA. E se queste aziende hanno raccolto i dati di chiunque viva in Europa, è probabile che siano colpevoli di violare il GDPR: ChatGPT è già stato bloccato, seppur temporaneamente, per preoccupazioni sulla privacy.

Questo inizio incerto nella regolamentazione dei potenti modelli di linguaggio mostra che il futuro delle politiche sull’IA non è ancora stato scritto. Ancora una volta, le grandi aziende tecnologiche stanno per guadagnare miliardi dai tuoi dati personali senza il tuo consenso. I regolatori e i consumatori accetteranno ancora una volta questa situazione?

Il blocco di ChatGPT in Italia è solo l’inizio

Il 31 marzo, l’autorità garante per la protezione dei dati personali (Garante) italiana ha emesso un ordine di interruzione del trattamento(nuova finestra) nei confronti di ChatGPT, che ha portato OpenAI a bloccare geograficamente gli utenti potenziali con un indirizzo IP italiano. Due settimane dopo, il Garante ha emesso un elenco di richieste che OpenAI avrebbe dovuto soddisfare per riprendere il servizio nel paese.

Questo elenco includeva diverse protezioni della privacy, tra cui:

Limitare l’accesso a ChatGPT ai minori
Fornire una spiegazione più dettagliata dei dati trattati per addestrare gli algoritmi di ChatGPT
Consentire alle persone di scegliere di non partecipare a tale trattamento

Dal 28 aprile 2023, dopo che ChatGPT ha implementato queste misure, il Garante ha revocato il suo divieto. In un articolo ampliato del centro assistenza(nuova finestra), OpenAI afferma di utilizzare l’interesse legittimo (come definito dal GDPR) come base legale per la raccolta e il trattamento dei dati per addestrare i suoi algoritmi.

Sebbene ChatGPT non sia più bandito, l’ordine del Garante potrebbe essere stato solo il primo avvertimento. Le autorità garanti per la protezione dei dati personali di Francia, Germania e Irlanda(nuova finestra) hanno comunicato con il Garante e stanno valutando le proprie indagini. L’autorità garante spagnola(nuova finestra) ha annunciato la propria indagine. E il Comitato Europeo per la Protezione dei Dati(nuova finestra) dell’UE ha annunciato che avvierà un gruppo di lavoro su ChatGPT.

È legale raccogliere dati da internet per addestrare l’IA?

Nell’articolo del centro assistenza precedentemente citato, OpenAI ha chiarito di aver utilizzato informazioni raccolte da internet per addestrare ChatGPT. Il fatto che inizialmente non fosse chiaro da dove provenissero questi dati implica che OpenAI ha raccolto tutti questi dati senza il permesso esplicito dei soggetti interessati.

L’autorità garante per la protezione dei dati personali francese (DPA) ha emesso in passato una guida affermando che anche se un individuo condivide pubblicamente le proprie informazioni di contatto, queste sono comunque considerate dati personali e non possono essere liberamente utilizzati o trattati da un’azienda senza la conoscenza della persona. Presumendo che le autorità garanti per la protezione dei dati personali siano disposte a trattare altri tipi di informazioni personali come le informazioni di contatto, la raccolta di dati web di ChatGPT sembra essere una chiara violazione del GDPR dato che non soddisfa nessuno degli altri requisiti di l’Articolo 6(nuova finestra) del GDPR.

Dal momento che è anche probabile che ChatGPT abbia raccolto tutti questi set di dati in massa senza un caso d’uso esplicitamente definito, sembrerebbe anche essere una chiara violazione del principio di minimizzazione dei dati come stabilito in l’Articolo 5.1.c(nuova finestra) del GDPR.

Data la struttura dei modelli di intelligenza artificiale, non esiste un metodo legittimo per garantire l’applicazione del ‘diritto all’oblio’ del GDPR sui dati che sono stati raccolti dal web, una chiara violazione dell’Articolo 17(nuova finestra) del GDPR. ChatGPT sembra aver introdotto un meccanismo che consentirebbe alle persone di impedire la memorizzazione e l’utilizzo dei prompt forniti per addestrare l’algoritmo, ma i dati che queste aziende hanno raccolto per addestrare la loro IA inizialmente saranno molto più difficili da separare.

Infine, c’è il fatto che OpenAI è un’azienda americana. Dopo Schrems II(nuova finestra), una decisione giudiziaria che richiede ai fornitori di servizi cloud di verificare le protezioni dei dati dei paesi prima di trasferirvi i dati, l’UE ha (correttamente) adottato una posizione critica sulle protezioni della privacy degli Stati Uniti. OpenAI, un’azienda statunitense, deve dimostrare di aver implementato adeguate garanzie prima di poter trasferire i dati di individui residenti in Europa negli Stati Uniti senza il loro esplicito consenso. Altrimenti, sarebbe in violazione dell’Articolo 46(nuova finestra) del GDPR.

La politica sulla privacy(nuova finestra) di OpenAI parla brevemente dei trasferimenti di dati, affermando solo che utilizzerà “garanzie appropriate per il trasferimento di Informazioni Personali al di fuori dell’EEA, della Svizzera e del Regno Unito”.

Questo è solo la punta dell’iceberg. Queste sono tutte le probabili violazioni del GDPR commesse solo nella creazione e pubblicazione dei modelli di IA.

Nel suo articolo del centro di assistenza, ChatGPT afferma che, poiché l’addestramento dell’IA richiede enormi quantità di dati, non aveva altra scelta se non quella di raccogliere dati da internet. Dice anche che le informazioni erano già disponibili pubblicamente e che non aveva intenzione di impattare negativamente sugli individui. Sottolinea inoltre che non utilizza i dati degli individui per costruire profili personali, contattare o fare pubblicità alle persone, o vendere prodotti. Sfortunatamente per OpenAI, nessuno di questi punti costituisce una giustificazione per l’elaborazione dei dati secondo il GDPR.

L’esposizione delle aziende di IA è aumentata ancora di più ora che aziende terze stanno applicando ChatGPT a varie funzioni, come l’assistenza nelle chiamate di servizio clienti(nuova finestra). A meno che i dati delle persone non siano adeguatamente anonimizzati o essi non diano il loro consenso esplicito a parlare con un chatbot IA, anche queste aziende terze commetteranno violazioni del GDPR.

Vale anche la pena sottolineare che il GDPR non è stato scritto per affrontare l’IA. Anche se sembrano essere violazioni chiare del GDPR, il modo in cui funziona l’IA confonde in qualche modo la distinzione tra soggetti dei dati, responsabili del trattamento e processori dei dati. Non avremo chiarezza su queste questioni fino a quando le Autorità di Protezione dei Dati e i tribunali non renderanno le loro decisioni.

La politica sulla privacy insolita di Google

Google non è nuova all’intelligenza artificiale, avendo pionierato le “reti neurali” con Google Translate e innovazioni nella comprensione delle intenzioni dietro le ricerche delle persone. Ha persino sviluppato il proprio grande modello di linguaggio, LaMDA(nuova finestra).

Ciò che è nuovo è la politica sulla privacy di Google, che è stata recentemente aggiornata per concedere all’azienda un’autorità ampia per raccogliere dati da tutto l’internet.

In un aggiornamento di luglio 2023, Google ha aggiunto una piccola linea alla sua politica sulla privacy(nuova finestra). nella sezione “Scopi aziendali per cui le informazioni possono essere utilizzate o divulgate”: “Google utilizza le informazioni per migliorare i nostri servizi e sviluppare nuovi prodotti, funzionalità e tecnologie che beneficiano i nostri utenti e il pubblico. Ad esempio, utilizziamo informazioni pubblicamente disponibili per aiutare ad addestrare i modelli di IA di Google e costruire prodotti e funzionalità come Google Translate, Bard e le capacità di Cloud AI”.

La formulazione “informazioni pubblicamente disponibili” riflette la descrizione di OpenAI dei dati utilizzati per addestrare i suoi prodotti di IA. Ci dice molto poco sui tipi precisi di dati utilizzati per addestrare i loro modelli. L’implicazione è che tutti i dati sono gioco lecito.

Ciò che è veramente diverso nella politica sulla privacy di Google è che sembra essere indirizzata alla popolazione globale, non solo alle persone che utilizzano i servizi Google. Nemmeno la politica sulla privacy di OpenAI include una clausola come questa.

Sarà difficile per Google sostenere di aver ottenuto il consenso dei cittadini dell’UE prima di elaborare i loro dati quando l’unica indicazione che lo farebbe è contenuta in un piccolo “ad esempio” diretto a nessuno in particolare.

La legge sul diritto d’autore e le aziende potrebbero prendere di mira l’AI prossimamente

ChatGPT e altri servizi di intelligenza artificiale sono sotto esame sia da parte delle aziende che dei regolatori pubblici. JPMorgan Chase(nuova finestra), Amazon(nuova finestra) e Samsung(nuova finestra) hanno limitato l’uso degli strumenti AI, mentre siti come Reddit(nuova finestra), Stack Overflow(nuova finestra) e Getty Images(nuova finestra) hanno richiesto compensazioni alle aziende di AI o li hanno citati in giudizio. JPMorgan Chase ha detto ai suoi dipendenti di non usare ChatGPT per paura che condividere informazioni sensibili dei clienti con il chatbot possa violare le normative finanziarie.

Amazon e Samsung temono che i loro dati proprietari possano essere utilizzati per addestrare ChatGPT. Come ha detto uno degli avvocati di Amazon nella Slack aziendale, “Questo è importante perché i tuoi input possono essere utilizzati come dati di addestramento per una futura iterazione di ChatGPT, e non vorremmo che il suo output includa o assomigli alle nostre informazioni riservate (e ho già visto casi in cui il suo output corrisponde strettamente a materiale esistente).” Samsung ha implementato il suo divieto dopo aver scoperto che i suoi sviluppatori avevano già caricato codice sensibile su ChatGPT.

Getty Images è andata oltre e, nel febbraio 2023, ha presentato una causa nel Regno Unito accusando Stability AI, la società dietro lo strumento di arte AI Stable Diffusion, di violazione della legge sul diritto d’autore. Getty Images sostiene che Stability AI “ha copiato e processato illegalmente” milioni delle sue immagini stock protette dal diritto d’autore. Non aiuta il fatto che i watermark di Getty Images siano relativamente comuni nelle immagini di Stable Diffusion.

Stability AI ha reso pubblico il dataset utilizzato per addestrare il suo algoritmo. Ciò ha permesso a esperti indipendenti di esaminare i dati(nuova finestra) e concludere che contengono una notevole quantità di immagini provenienti da Getty. E non è l’unico strumento AI ad affrontare accuse di violazione del diritto d’autore o di plagio.

https://twitter.com/erockappel/status/1652786155665096704

Analogamente, Reddit e Stack Overflow hanno detto che inizieranno a far pagare alle aziende di AI l’accesso alle loro API. “Crawling Reddit, generando valore e non restituendo nulla di quel valore ai nostri utenti è qualcosa che ci crea problemi,” ha dichiarato il CEO di Reddit, Steve Huffman, al The New York Times(nuova finestra).

È proprio per questo che molte altre aziende di intelligenza artificiale, inclusa OpenAI, sono state molto più caute riguardo ai dati che utilizzano — temono che la piena trasparenza possa portare a ancora più problemi normativi e di diritto d’autore.

So why aren't the big AI companies more transparent about what's in the data that they use to train their models?

One reason, experts say, is because they're afraid they'd get in trouble if people found out. pic.twitter.com/im1cfrSXuA(nuova finestra)
— Will Oremus (@WillOremus) April 19, 2023(nuova finestra)

Le aziende di intelligenza artificiale non hanno guadagnato la nostra fiducia

Rimane una questione aperta cosa succederà a ChatGPT, Stable Diffusion, Dall-E e altri strumenti di AI, ma tutto questo è già accaduto in passato.

Prima di OpenAI, c’era Clearview AI(nuova finestra). Questa azienda di sorveglianza facciale ha addestrato il suo AI con milioni di foto prelevate dai social media senza il consenso di nessuno. Da allora ha combattuto numerosi ordini di cessazione e desistere e continua a operare grazie alle scarse protezioni legali della privacy negli Stati Uniti.

Seguendo questo modello, le aziende di AI sono andate avanti, creando un mix di dati che è quasi impossibile districare. Le aziende di AI stanno ancora seguendo l’approccio obsoleto e pericoloso del “muoviti velocemente e rompi le cose”, ma portandolo a un altro livello.

Il GDPR potrebbe non essere stato scritto pensando all’AI, ma è comunque la legislazione sulla protezione dei dati più forte finora. Fortunatamente, l’UE sta ora lavorando a una proposta per il suo Artificial Intelligence Act(nuova finestra). Se tutto procede secondo i piani, la proposta finale dovrebbe essere disponibile a giugno di quest’anno, e l’applicazione della legge potrebbe iniziare già alla fine del 2024.

L’AI ha il potenziale per essere uno sviluppo veramente rivoluzionario, uno che potrebbe guidare il progresso per secoli. Ma deve essere fatto correttamente. Queste aziende potrebbero guadagnare miliardi di dollari di entrate, eppure hanno violato la nostra privacy e stanno addestrando i loro strumenti usando i nostri dati senza il nostro permesso. La storia recente mostra che dobbiamo agire ora se vogliamo evitare una versione ancora peggiore del capitalismo di sorveglianza.

Aggiornato il 13 luglio 2023 per discutere l’aggiornamento della politica sulla privacy di Google.

IA vs. il GDPR