Le accuse di violazione del copyright contro GitHub e Microsoft si sgretolano. Le affermazioni degli sviluppatori, secondo cui GitHub Copilot avrebbe copiato illecitamente il loro codice, sono state in gran parte respinte, lasciando agli ingegneri del software soltanto due accuse residue nella loro causa.
La class action contro GitHub, Microsoft e OpenAI
La class action contro GitHub, Microsoft e OpenAI è stata presentata negli Stati Uniti nel novembre 2022. I querelanti sostenevano che l’assistente alla codifica Copilot fosse stato addestrato su software open source ospitato su GitHub e, di conseguenza, suggerisse frammenti di quei progetti pubblici ad altri programmatori senza rispettare le licenze – come dare il dovuto credito alla fonte – violando così i diritti di proprietà intellettuale dei creatori originali.
Microsoft possiede GitHub e utilizza la tecnologia generativa di apprendimento automatico di OpenAI per alimentare Copilot, che completa automaticamente il codice sorgente per gli ingegneri mentre digitano commenti, definizioni di funzioni e altri prompt.
Di conseguenza, i querelanti si lamentano del fatto che, secondo loro, porzioni del loro codice open source protetto da copyright potrebbero essere fornite – o meglio copiate – da Copilot ad altri programmatori per essere utilizzate, senza dare il dovuto credito e senza rispettare altri requisiti delle licenze originali.
Il caso era partito con 22 reclami in totale e nel tempo questo numero è stato ridotto poiché le aziende difendenti hanno chiesto che le accuse venissero respinte dal tribunale, richieste che il giudice Jon Tigar ha per lo più accolto.
In un ordine reso pubblico venerdì 5 luglio, il giudice Tigar ha deciso su un altro gruppo di reclami dei querelanti e complessivamente è stata una vittoria per GitHub, Microsoft e OpenAI. Tre reclami sono stati respinti come richiesto e solo uno è stato ammesso a procedere. Secondo un conteggio degli avvocati di Microsoft e GitHub, rimangono in piedi solo due accuse in totale.
I reclami respinti
Dei reclami recentemente respinti, uno riguardava la violazione ai sensi del Digital Millennium Copyright Act (DMCA), sezione 1202(b), che sostanzialmente afferma che non si dovrebbe rimuovere senza autorizzazione informazioni essenziali sulla “gestione dei diritti d’autore”, come in questo contesto chi ha scritto il codice e i termini d’uso, come tendono a stabilire le licenze.
Nella class action si sosteneva che Copilot eliminasse queste informazioni quando offriva snippet di codice dai progetti delle persone, cosa che a loro avviso violerebbe la sezione 1202(b). Il giudice tuttavia non è stato d’accordo sulla base del fatto che il codice suggerito da Copilot non era abbastanza identico al lavoro protetto da copyright degli sviluppatori stessi e quindi la sezione 1202(b) non si applicava.
L’anno scorso, infatti, si vociferava che GitHub avesse calibrato il suo assistente alla programmazione per generare lievi variazioni del codice di addestramento ingerito, al fine di evitare accuse sul fatto che l’output fosse una copia esatta del software sotto licenza. I querelanti non potranno presentare una nuova accusa DMCA sulla sezione 1202(b) poiché il giudice Tigar ha respinto l’accusa con pregiudizio. I programmatori anonimi hanno ripetutamente insistito sul fatto che Copilot potrebbe generare codici identici a quelli da loro scritti personalmente, punto fondamentale della loro causa dato che esiste un requisito di identicità per la loro accusa DMCA.
Tuttavia, in precedenza il giudice Tigar aveva stabilito che i querelanti non avevano effettivamente dimostrato casi specifici in cui ciò fosse accaduto, portando al rigetto dell’accusa con possibilità di modificarla. La denuncia modificata sosteneva che la copia illegale del codice fosse inevitabile se gli utenti avessero disattivato il pulsante anti-duplicazione di Copilot e citava anche uno studio sul codice generato dall’AI nel tentativo di sostenere la loro posizione secondo cui Copilot avrebbe plagiato le fonti; ancora una volta però il giudice non si è convinto della validità dell’accusa nei confronti dell’operato effettivo del sistema Microsoft.
Rimangono in piedi solo due accuse
In particolare, il giudice ha citato l’osservazione dello studio secondo cui Copilot “raramente emette codice memorizzato in situazioni benigne, e la maggior parte della memorizzazione avviene solo quando il modello è stato sollecitato con lunghi estratti di codice molto simili ai dati di addestramento”.
“Di conseguenza, l’affidamento dei querelanti su uno studio che, al massimo, sostiene che Copilot può teoricamente essere indotto da un utente a generare una corrispondenza con il codice di qualcun altro non è convincente”, ha concluso.
L’argomentazione relativa al DMCA era, come abbiamo detto, una delle tre richieste di risarcimento appena respinte. Le altre due erano richieste di arricchimento senza causa e danni punitivi, anche se non con pregiudizio, il che significa che è possibile che queste richieste vengano modificate e ripresentate. Fino ad allora, tuttavia, le rivendicazioni in piedi rimangono solo due: un’accusa di violazione della licenza open source e una denuncia di violazione del contratto che era stata precedentemente reintrodotta dopo essere stata respinta inizialmente.
“Crediamo fermamente che l’intelligenza artificiale trasformerà il modo in cui il mondo costruisce il software, portando a una maggiore produttività e, soprattutto, a sviluppatori più felici”, ha dichiarato GitHub. “Siamo certi che Copilot rispetti le leggi vigenti e ci siamo impegnati fin dall’inizio a innovare in modo responsabile con Copilot. Continueremo a investire e a sostenere l’esperienza di sviluppo AI del futuro”.
Abbiamo anche contattato tutte le parti in causa e i loro team legali.
Entrambe le parti in lite durante le indagini
Venerdì 5 luglio è stata depositata anche una dichiarazione congiunta sulla gestione del caso, piena di lamentele e reclami da parte di ciascuna delle due parti in merito al processo di scoperta, in cui entrambe affermano che l’altra non ha consegnato tutti i documenti che avrebbe dovuto.
I querelanti accusano gli imputati di averla tirata deliberatamente per le lunghe, affermando che i documenti prodotti finora erano già pubblicamente disponibili o avrebbero dovuto essere divulgati molto tempo fa. Gran parte dell’attenzione è rivolta a Microsoft e all’unico documento presentato finora, cosa che secondo i querelanti non ha senso.
“Il fatto che i dipendenti di Microsoft siano stati coinvolti in molte di queste conversazioni su GitHub dimostra che la produzione di un solo documento da parte di Microsoft è stata finora una funzione di ritardo e di offuscamento, e nient’altro”, hanno dichiarato gli sviluppatori anonimi. “Microsoft sapeva ma non ha rivelato che i suoi dipendenti erano direttamente coinvolti nella creazione, nel funzionamento e nella gestione di Copilot e dei suoi modelli sottostanti”.
La mancanza di documenti da parte del produttore di Windows sarebbe dovuta a “difficoltà tecniche” nella raccolta dei messaggi Slack, cosa che non convince i querelanti. Allo stesso modo, i programmatori sostengono che OpenAI avrebbe già dovuto fornire molte più informazioni, sottolineando che ne aveva fornite decine di migliaia come imputato nella causa Authors Guild.
Microsoft e GitHub, tuttavia, ribattono che i querelanti hanno chiesto troppe informazioni, accusandoli di “non aver perseguito la scoperta di questi argomenti in modo efficiente e in buona fede”. Uno di questi argomenti comprende l’acquisizione di GitHub da parte di Microsoft nel 2018.
Nel frattempo, OpenAI afferma che i querelanti non hanno seguito la procedura corretta per quanto riguarda la richiesta di e-mail, dicendo che non può (o non vuole) produrne finché non riceve una richiesta corretta.
Il trio di aziende sostiene inoltre che l’archiviazione della suddetta richiesta di copyright DMCA ha cambiato radicalmente il caso e sostiene che l’ambito della scoperta dovrebbe ora essere ristretto. I querelanti contestano questa affermazione sostenendo che la richiesta di violazione della licenza open source riguarda più o meno gli stessi documenti che la questione del DMCA dovrebbe far emergere.
GitHub, Microsoft e OpenAI sostengono che i querelanti non hanno risposto in modo adeguato alle loro richieste di scoperta, sostenendo che i loro documenti includono “file JSON, un file HTML vuoto, e-mail senza metadati e file PNG impropriamente redatti di Slack e altri messaggi”.
I querelanti hanno chiesto più tempo per la scoperta e, sebbene i convenuti sostengano che non sia necessario, i tre titani della tecnologia si dicono aperti a una “ragionevole estensione”.