ChatGPT sta veramente diventando “più stupido”? Un nuovo documento pubblicato martedì 25 luglio dai ricercatori dell’Università di Stanford e dell’UC Berkeley esplora come il comportamento di ChatGPT sia cambiato nel corso del tempo e proverebbe di sì. La ricerca rileva che le prestazioni dei modelli di intelligenza artificiale GPT-3.5 e GPT-4 sottostanti al chatbot “variano notevolmente”.
Non solo le prestazioni variano, ma GPT-4, il modello “multimodale” più avanzato in grado di comprendere sia le immagini che il testo, sembra aver peggiorato notevolmente nel tempo i compiti per i quali è stato testato.
Questi compiti erano sufficientemente vari per assicurarsi che al modello venisse data una valutazione equa delle sue capacità: problemi matematici, risposte a domande delicate, generazione di codice e ragionamento visivo facevano tutti parte del processo di valutazione.
Ma anche con una varietà di compiti per mostrare le sue capacità, GPT-4 è risultato piuttosto insoddisfacente.
È stato riscontrato che a marzo aveva un’accuratezza del 97,6% nell’identificare i numeri primi, rispetto a uno scioccante 2,4% a giugno! In questo mese ha commesso “più errori di formattazione nella generazione del codice” rispetto all’inizio dell’anno, e in generale è stato “meno disposto a rispondere a domande delicate”.
Perché GPT-4 sta cambiando?
Ciò che la ricerca non sembra riuscire a identificare è il motivo di questo calo di prestazioni. “Il documento non spiega perché il degrado delle capacità si stia verificando. Non sappiamo nemmeno se OpenAI sia a conoscenza di questo fenomeno”, ha twittato Ethan Mollick, professore di innovazione a Wharton, in risposta al documento. -Ethan Mollick (@emollick) 19 luglio 2023
Se OpenAI non se ne è accorta, molti nella comunità dell’AI lo hanno fatto. Peter Yang, product lead di Roblox, aveva già notato a maggio che le risposte di GPT-4 venivano generate più velocemente di quanto non fossero in precedenza, “ma la qualità sembrava peggiore”.
“Forse OpenAI sta cercando di risparmiare sui costi?”, aveva scritto su Twitter.
Nel forum degli sviluppatori di OpenAI, invece, è in corso un dibattito sulla diminuzione della qualità delle risposte.
Il modello di intelligenza artificiale alla base di una versione più avanzata di ChatGPT, a cui hanno accesso gli abbonati paganti, rappresenta un problema per OpenAI. Il suo modello linguistico più avanzato dovrebbe dargli un vantaggio in una competizione sempre più agguerrita con i suoi rivali.
Molti nella comunità dell’AI attribuiscono il deterioramento della qualità del GPT-4 a una “riprogettazione radicale” del modello.
OpenAI ha respinto questa idea e Peter Welinder, vicepresidente del prodotto di OpenAI, ha twittato la scorsa settimana: “No, non abbiamo reso GPT-4 più stupido. Al contrario: rendiamo ogni nuova versione più intelligente della precedente”.
Dopo aver visionato questa ricerca, però, potrebbe essere costretto a rivedere la sua posizione.
Forse un problema di prompting
Matei Zaharia, chief technology officer di Databricks e professore associato di informatica alla UC Berkeley – nonché uno dei coautori della ricerca – ha twittato: “Sembra decisamente complicato gestire la qualità” delle risposte dei modelli di AI. -Matei Zaharia (@matei_zaharia) luglio 19
“Credo che la domanda difficile sia quanto gli stessi sviluppatori di modelli siano in grado di rilevare tali cambiamenti o di evitare la perdita di alcune funzionalità durante la messa a punto di quelle nuove”, ha twittato.
Alcuni, come il professore di informatica di Princeton, Arvind Narayanan, hanno evidenziato importanti limiti alla difesa di GPT-4.
In un thread su Twitter, l’autore osserva che le degradazioni riportate nel documento potrebbero essere “un po’ particolari” per i compiti assegnati a GPT-4 e per il metodo di valutazione utilizzato. Per quanto riguarda il test di generazione del codice, osserva che GPT-4 aggiunge “testo non-codice al suo output”, ma gli autori non valutano la correttezza del codice”.
Ossia, a suo avviso, i ricercatori non hanno tenuto conto del fatto che OpenAI ha messo a punto i modelli per ottenere prestazioni migliori e questo ha involontariamente fatto sì che alcune tecniche di prompting smettessero di funzionare come in passato.
Detto questo, è difficile ignorare le domande di qualità che circondano GPT-4, se davvero sia diventato più stupido, quando un’intera comunità di seguaci dell’AI se le pone. Forse sarebbe meglio che OpenAI si assicurasse di avere le risposte giuste.