Ingegnerizzare e addestrare modelli generativi di grandi dimensioni richiede notevoli risorse di calcolo, che solo le big company possono permettersi. Alcune di queste società, dichiarando di voler rendere l’AI più democratica, hanno condiviso il codice sorgente dei loro modelli, secondo il cosiddetto open source. Se però si esamina più da vicino la situazione, sembra che il vero scopo di molte di queste release pubbliche non sia la democratizzazione dell’AI, ma l’utilizzo di questi rilasci come leva per la vendita dei propri servizi.
Come definire un’AI open source
In ogni caso, definire un’AI open source è un compito complesso. Non si tratta di un software tradizionale, ma di un insieme di componenti che, grazie a un processo di addestramento, collaborano al risultato finale. Attualmente, mancano linee guida ufficiali per stabilire i parametri per determinare quando un’intelligenza artificiale può essere considerata a sorgente aperta.
Per garantire uno sviluppo futuro dell’AI a beneficio dell’umanità, è fondamentale stimolare la discussione sulle AI Open source. Considerando la complessità tecnica e gli investimenti necessari a creare nuovi modelli di grandi dimensioni, sorge il problema del monopolio di poche grandi aziende su una tecnologia che inizia ad avere un impatto considerevole sulla società e che sarà sempre più centrale per il nostro futuro. L’approccio Open source, tenendo in considerazione i suoi pro e contro, potrebbe far parte di una soluzione gestionale democratica per lo sviluppo dell’AI?
Quando un’AI può essere considerata open source?
Il termine open source si riferisce a una filosofia di produzione e distribuzione del software basata sulla condivisione del codice sorgente e sulla collaborazione tra gli sviluppatori. Un software Open source può essere liberamente utilizzato, modificato e ridistribuito da chiunque, a patto che si rispetti la licenza con cui è stato rilasciato.
Questa filosofia si contrappone all’approccio closed source del software proprietario, che è invece protetto da licenze restrittive e diritti d’autore e, nella maggior parte dei casi, non prevede l’accesso al codice sorgente.
Adattare queste definizioni all’AI è complicato, perché i modelli architetturali delle reti neurali non sono costituiti da una singola componente software. Per far funzionare un’Intelligenza artificiale, non basta solamente il codice sorgente, ma occorrono anche i dati per l’addestramento, le risorse di calcolo per il completamento del training e l’esperienza per definire i corretti parametri di tuning.
Per valutare se un modello possa essere realmente considerato open source, bisogna tenere conto di quattro componenti principali:
- architettura: il codice sorgente contiene l’architettura principale dell’Intelligenza artificiale. La maggior parte delle architetture si basano su librerie che devono essere considerate nella valutazione.
- weight: guardando sotto il cofano di una rete neurale troviamo una serie di neuroni artificiali connessi tra loro. I “weight” (pesi) in una rete neurale rappresentano parametri numerici speciali che la rete utilizza per comprendere come associare input a output. Questi pesi vengono generati in fase di training, e ogni connessione tra neuroni ha un peso che ne determina l’importanza, a seconda del contesto.
- training set: Vale a dire l’insieme di dati usato per addestrare un modello. Il training set viene utilizzato per insegnare al modello come riconoscere i pattern nei dati e come generare output accurati.
- licenze: Perché un software sia considerato Open source, non basta che il codice sorgente sia visibile a qualsiasi utente, ma deve poter essere utilizzato senza particolari restrizioni di licenza anche in ambiente operativo.
Un paper di David Gray Widder, Sarah West e Meredith Whittaker ha analizzato attentamente la questione, dimostrando che in molti casi le AI definite “Open” dai produttori sono, in realtà, ancora molto lontane dalla filosofia democratica della sorgente aperta. Secondo gli autori, l’apertura delle Big company agli investimenti in modelli di AI almeno parzialmente aperti, viene sfruttata per rafforzare la loro posizione di mercato di fronte al crescente interesse per la regolamentazione dell’IA. Dallo studio emerge che alcune aziende si sono mosse per abbracciare la filosofia dell’Intelligenza artificiale a sorgente aperta con l’obiettivo di consolidare il loro dominio, utilizzando la retorica dell’Open source per espandere il proprio potere di mercato e beneficiare del lavoro gratuito dei contributor.
Il caso Llama2
Meta ha recentemente rilasciato il modello LLM Llama 2 come Open source e, in effetti, è possibile recuperarne sia il codice sorgente (su GitHub) che i weight (facendone apposita richiesta a Meta tramite un form sul sito ufficiale). Quando, però, si inizia a esaminare la licenza sotto la quale è avvenuto questo rilascio, iniziano a sorgere le prime perplessità.
Un primo problema è costituito dal fatto che il modello non è effettivamente utilizzabile da tutti in modo libero. Nei termini commerciali addizionali, infatti, Meta introduce un limite di 700 milioni di utenti/mese per l’utilizzo gratuito del modello. Questo significa che i service provider con un gran numero di utenti non possono usare Llama 2, una restrizione lontana dalla filosofia open e che salvaguarda Meta dai principali competitor.
Un altro punto molto discusso di questa nuova licenza riguarda il punto 1.V, che impedisce l’uso di Llama 2 per generare training set o per costruire o migliorare altri modelli. Questa limitazione impatta un numero molto maggiore di utenti, che avrebbero potuto utilizzare il modello di Meta come punto di partenza per fare ricerca. Ancora una volta si tratta di una clausola limitante che va contro il principio di libero uso del software.
Meta ha creato una propria licenza, non approvata dalla Open Source Initiative, che cerca di ridefinire il concetto stesso di Open source secondo i propri termini. È quindi ancora corretto parlare di software liberi a sorgente aperta? Questo approccio potrebbe diventare uno standard per le grandi aziende che potrebbero, in questo modo, utilizzare una versione della filosofia Open source storpiata e piegata alle leggi del business, al fine di incrementare il loro vantaggio economico e il loro controllo sulla tecnologia, in vista delle nuove regolamentazioni internazionali.
Per un’intelligenza artificiale democratica
Ad ogni modo, la filosofia open source da sola non basta a garantire un futuro democratico per l’AI. I principi di libera distribuzione e libero uso devono essere accompagnati da una regolamentazione adeguata, che affronti chiaramente il tema della responsabilità e delle esenzioni per i progetti non commerciali. Il legislatore deve anche tenere conto delle norme sugli audit di impatto, che coinvolgono revisori terzi, e che risultano troppo gravosi per i progetti open source, solitamente senza scopo di lucro.
Per avere una visione completa, bisogna discutere anche dell’impatto dell’EU AI Act sulla comunità open source. La legislazione dell’UE richiede una revisione esterna dei modelli di Intelligenza artificiale, il che potrebbe rendere lo sviluppo Open source poco realistico. Un gruppo di sviluppatori e aziende open source, tra cui GitHub, Hugging Face e la Creative Commons Foundation, ha inviato una lettera aperta al Parlamento europeo per sollecitare un maggiore sostegno allo sviluppo di AI Open source nell’EU AI Act.
Meredith Whittaker, presidente di Signal Foundation e cofondatore dell’AI Now Institute presso la New York University, ha spiegato bene questa esigenza in una recente intervista: “Abbiamo un disperato bisogno di alternative significative alla tecnologia definita e dominata da grandi aziende monopolistiche, soprattutto perché i sistemi di intelligenza artificiale sono integrati in molti settori altamente sensibili con un particolare impatto pubblico: nell’assistenza sanitaria, nella finanza, nell’istruzione e sul posto di lavoro. Creare le condizioni per rendere possibili tali alternative è un progetto che può coesistere e può persino essere sostenuto da movimenti normativi come le riforme antitrust”.
I modelli di AI chiusi, che funzionano come “black box” e vengono addestrati su dati secretati, non rappresentano e non possono rappresentare il futuro dell’intelligenza artificiale. La trasparenza e l’open source, con le opportune regolamentazioni, possono essere strumenti da utilizzare per rendere l’AI e, di conseguenza, il nostro futuro, veramente democratici.