Chatbot di intelligenza artificiale generativa costruiti su milioni di articoli pubblicati: è questa l’accusa che il quotidiano statunitense New York Times muove a due altrettanto note aziende tecnologiche, Microsoft e OpenAI. Queste ultime si sarebbero prese la libertà di “alimentare” i loro modelli di AI con numerosissimi pezzi pubblicati in rete. Da qui, la denuncia per violazione del copyright e quindi la chiamata in giudizio.
Il New York Times e la causa a OpenAI e Microsoft: le accuse sollevate
Le accuse che il New York Times – NYT muove alle due società in causa sono chiare e consistono nel considerare “addestrati i propri modelli di intelligenza artificiale copiando e utilizzando milioni degli articoli pubblicati”.
In altri termini, i colossi tecnologici sono accusati di aver “tratto profitto dalla massiccia violazione del diritto d’autore, dal commercio e dall’uso di strumenti di comunicazione”.
I termini della denuncia
Più nello specifico, il giornale ritiene (e lo esprime nella denuncia) che “i grandi modelli linguistici (LLM), i quali alimentano ChatGPT e Copilot, siano in grado di generare un output che recita alla lettera il contenuto del Times, lo riassume fedelmente e ne imita lo stile espressivo”.
Dall’atto contenente la denuncia si evince che OpenAI, per addestrare ChatGPT avrebbe utilizzato “…milioni di articoli” per “competere direttamente”.
L’accusa è mirata e risiede nel “riassumere fedelmente e imitare lo stile espressivo degli articoli pubblicati” dal NYT senza sapere se detti sistemi abbiano dichiarato i contenuti effettivi e su quali tra questi siano stati allenati i vari algoritmi.
Passaggio nient’affatto di poco rilievo, anzi; proprio dietro ciò si annidano i contenuti riprodotti.
I punti nodali, i relativi danni e alcune, tra le prime, devastanti conseguenze
I punti nodali di questa vicenda possono essere così individuati e riassunti in termini di danni da:
- addestramento senza preventiva autorizzazione e quindi in violazione di copyright;
- perdita di chance in “abbonamenti, licenze, pubblicità e ricavi da affiliazioni” da parte degli utenti non più invogliati in tal senso;
Quindi i grandi modelli linguistici fanno sì che il rapporto instauratosi nel corso del tempo, tra il giornale e i lettori, si danneggi irrimediabilmente.
Tra le principali conseguenze, se da un lato v’è il rischio che agenzie di stampa non difendano e/o monetizzino i propri contenuti, vanificando il lavoro di quanti contribuiscono al giornalismo di qualità, dall’altro la testata giornalistica potrebbe perdere lettori/lettrici e quote di mercato.
La posizione di OpenAI e Microsoft: le difese sostenute
Come il NYT riferisce di non esser riuscito a trovare un accordo con le due big tech, e in assenza ancora di una replica ufficiale da parte di queste, è bene evocare un precedente che ha visto, nelle scorse settimane, un editore tedesco dichiarare che l’unione fa la forza onde “fornire contenuti del gruppo mediatico in risposta alle domande degli utenti”.
Nella pratica, gli utenti che faranno una domanda a ChatGPT riceveranno sintesi di articoli (già) pubblicati.
Nonostante il materiale sia coperto da copyright a tutela di testi, immagini e codici simili, parrebbe che “l’ingestione e l’elaborazione di grandi quantità di informazioni disponibili su Internet costituiscano un uso corretto per le leggi statunitensi sul copyright”. Ma attendiamo gli ulteriori ed eventuali sviluppi.
La dottrina del “fair use”
Nell’attesa che in California i legali di OpenAI rispondano per repliche alla class action azionata la tesi dominante risiede nel fatto che talune “richieste di risarcimento dovrebbero essere respinte in quanto il modello può fare affidamento sulla dottrina del cd fair use”.
Si tratta di una teoria che sancisce la possibilità di riutilizzare, in determinate circostanze, del materiale protetto da copyright senza che occorrano particolari autorizzazioni.
Secondo i difensori di OpenAI e alla luce di questa dottrina “l’uso di materiali protetti da copyright da parte di innovatori in modi trasformativi non vìola il diritto d’autore“.
Tra le preoccupazioni c’è l’affidabilità dell’informazione
Il NYT afferma che quei milioni di articoli “…usati per addestrare chatbot ora sono in concorrenza con lo stesso giornale”. Quindi tra le prime preoccupazioni affiora l’affidabilità della informazione, questione non da poco anzi di assoluta centralità anche perché avrà un notevole impatto sull’AI generativa, nonchè sui produttori degli annessi contenuti.
Il caso Springer
L’editore tedesco Axel Springer è protagonista dell’unico – finora – caso italiano che riguarda licenziamenti di giornalisti a causa dell’AI (generativa). Avrebbe infatti chiuso le redazioni europee della piattaforma Upday, licenziando nel nostro Paese tre giornalisti e una poligrafica, dichiarando che “le news saranno curate dall’IA generativa”, d’ora in poi.
Nello stesso tempo, pare che abbia fatto un accordo milionario con OpenAI per il training sui suoi dati. Insomma, come commenta al riguardo il direttore Alessandro Longo, “abbiamo un editore che riesce a sfruttare l’IA a proprio vantaggio in due modi: da una parte monetizza i propri contenuti accordandosi con Open AI, dall’altra fa efficienza sui costi usando la stessa AI per generarne dei nuovi. Nuovi in senso lato, però, perché l’IA non può fare informazione di base ma solo, al massimo, spiegare e curare l’informazione creata da altri”. Fino ad arrivare a concludere che: “il comportamento di Axel Springer è quello che in economia si può considerare a esternalità negativa: porta un beneficio immediato per sé, ma un danno per l’ecosistema in cui si opera”. Opinione del tutto condivisibile.
L’originalità dei contenuti
Sebbene le tecnologie poste alla base ora di ChatGPT – OpenAI, ora di Bing Chat – Microsoft, da un lato interessino in linea astratta e teorica editori e redazioni, dall’altro spaventano in considerazione del “furto sistematico su scala di massa”.
Ma gli allarmismi forse è bene ridimensionarli anche a fronte di un altro aspetto non di poco conto: quello dato dall’originalità dei contenuti; fattore che rimane essenziale specie per il mondo dell’editoria, oltre al fatto che senza contenuti originali di base l’AI generativa non può funzionare o viene, a ben guardare, altamente depotenziata.
Ecco perché il New York Times ha creato una squadra dedicata all’AI volta a trovare modi costruttivi e non aberrazioni distruttive e decostruttive. Ecco, dunque, che l’AI può senz’altro aiutare nel reperire informazioni, confermarle e abbozzarle nei contenuti iniziali, ma i contenuti prodotti non potranno certo essere quelli finali e da editare, degni di nota e lettura, laddove la penna per mano dell’uomo fa ancora estremamente la differenza.
I modelli di AI generativa sono il nuovo mezzo attraverso il quale
i creatori di contenuti raggiungono gli utenti
Il parere di Stefano Mancuso, COO di Synapsia
Di fronte alla recente causa intentata dal New York Times contro OpenAI, diventa di attualità la complessa questione dell’utilizzo dei dati nell’intelligenza artificiale. Questo episodio mette in evidenza la necessità di trovare un equilibrio giusto e praticabile tra l’innovazione tecnologica e i diritti dei creatori di contenuti.
A mio parere, l’idea di remunerare i creatori di contenuti in base al presunto utilizzo del loro lavoro, nell’addestramento di modelli di AI, prospettata da qualcuno, sia a dir poco irrealizzabile. La natura stessa di questi modelli, che hanno ‘imparato’ a esprimersi e comporre contenuti ispirandosi e mescolando fonti in maniera intricata e non lineare, rende quasi impossibile tracciare l’origine precisa di ogni frammento di informazione utilizzata per il loro addestramento. Questo scenario rende utopistico un meccanismo di remunerazione per l’uso specifico di un determinato dato. Determinare in modo equo e accurato quanto di un articolo del New York Times, ad esempio, è stato utilizzato, rispetto a un’informazione ‘simile’ presente in altre fonti disponibili, è praticamente impossibile. Va tenuto presente che l’AI generativa è efficace nella creazione di risposte testuali o visuali, ma le sue limitazioni derivano dal fatto che si basa su dati che non sono aggiornati in tempo reale o specifici per determinati contesti, come quelli aziendali.
Per sopperire a questo, già oggi esistono tecniche di ‘retrieval-augmented generation’ (RAG), che integrano la capacità di elaborazione dei LLM (derivante dall’addestramento con dati non riconducibili), con informazioni mirate e aggiornate (riconducibili), consentendo di usare la capacità dialogica dei modelli LLM, ma separando di fatto i contenuti aggiornati con quelli del modello di AI.
Questo approccio è particolarmente utile per contesti specifici, come nel caso di Copilot, come Bing Chat o Maia, che necessitano di fornire informazioni aggiornate in tempo reale su qualsiasi argomento. A mio parere, i LLM (Large Language Models) come OpenAI andrebbero considerati come una nuova ‘infrastruttura di rete’, al pari del World Wide Web di 30 anni fa, e lavorare a un sistema di valorizzazione degli ‘editori’, attraverso un meccanismo ‘premiante’ per le sorgenti di informazioni che vengono usate per fornire un contenuto, attraverso la capacità di elaborazione, aggregazione e riassunto del modello di AI. In sintesi, i modelli di AI generativa sono il nuovo mezzo attraverso il quale i creatori di contenuti raggiungono gli utenti.
In un futuro molto prossimo, i creatori di un articolo, di un blog o di un video potranno ‘pubblicare’ il contenuto anche sulle piattaforme messe a disposizione, ad esempio, dagli stessi fornitori di LLM, e ottenere revenues, come succede oggi per le pagine web, modificando semplicemente il mezzo su cui il contenuto viene fruito. Non appena un’area delle news del New York Times diventerà un GPTs di ChatGPT o un Unknow di MAIA, con la semplicità della condivisione attuale di un contenuto sui social, le controversie potenziali spariranno: il fornitore del servizio di AI offrirà il mezzo e il creatore del contenuto userà questo mezzo per raggiungere l’utente in una maniera nuova, guadagnando dal traffico che riesce a generare, come se fosse il traffico della propria pagina web.