L’intelligenza artificiale, con i modelli linguistici di grandi dimensioni (LLM), è al centro delle strategie di business di un numero crescente di aziende e sta prepotentemente entrando nel nostro quotidiano. I grandi player del settore, come OpenAI, Anthropic e Google, continuano a investire enormi capitali per sviluppare LLM sempre più potenti, quali GPT-4, Claude e Gemini.
Questi rapidi progressi hanno segnato un avanzamento nell’AI, con gli LLM che hanno raggiunto e persino superato le prestazioni umane in numerosi benchmark linguistici progettati per valutare compiti complessi come la comprensione del testo, il ragionamento logico e la generazione di linguaggio naturale. Nonostante questi impressionanti successi, persistono ancora cruciali sfide che impediscono agli attuali sistemi di AI di essere considerati pienamente affidabili e privi di errori.
Esaminiamo le performance degli LLM di punta su diversi benchmark linguistici e di codifica, mettendo in luce sia i loro notevoli progressi che le aree in cui devono ancora migliorare. Affrontiamo anche le persistenti questioni riguardanti allucinazioni, imprecisioni fattuali e mancanza di robustezza che ostacolano l’adozione diffusa di questi sistemi in applicazioni critiche.
Come valutare un LLM
I continui progressi dei grandi modelli di linguaggio sono evidenti nei loro punteggi record ottenuti sui principali benchmark disponibili. Sul benchmark MMLU (Massive Multitask Language Understanding), progettato per valutare le capacità di comprensione del linguaggio su 57 materie diverse, il modello Gemini Ultra di Google ha recentemente stabilito un nuovo stato dell’arte con un punteggio di accuratezza del 90,0%. Questo segna un notevole miglioramento di 14,8 punti percentuali rispetto al punteggio leader dell’anno precedente e un incredibile balzo di 57,6 punti dalla prima valutazione MMLU nel 2019. Particolarmente degno di nota è che Gemini Ultra sia il primo modello a superare la baseline umana dell’89,8% su questo impegnativo benchmark.
Sui compiti di generazione di codice, gli LLM hanno fatto passi da gigante. Sul popolare benchmark HumanEval, che valuta la capacità dei sistemi di generare soluzioni efficienti a 164 problemi di programmazione scritti a mano, una variante del modello GPT-4 chiamata “AgentCoder” ha recentemente stabilito un nuovo record con un punteggio del 96,3%. Tale risultato rappresenta un balzo di 11,2 punti percentuali rispetto al punteggio più alto dell’anno precedente e un notevole aumento di 64,1 punti dai primi punteggi su HumanEval nel 2021, evidenziando i rapidi progressi in questo dominio impegnativo.
Nel complesso, questi risultati esemplificano il potenziale trasformativo dell’attuale ondata di sistemi di AI di punta per una vasta gamma di applicazioni linguistiche e di codifica. Tuttavia, come vedremo, permangono ancora sfide significative da affrontare prima che questi sistemi possano essere considerati pienamente affidabili e robusti.
Sfide persistenti
Nonostante i notevoli progressi, gli LLM attuali sono ancora afflitti da alcune carenze fondamentali che ne limitano l’affidabilità e ostacolano la loro adozione diffusa in applicazioni mission-critical. Una delle principali preoccupazioni è la tendenza di questi modelli a produrre allucinazioni, ossia output apparentemente plausibili, ma effettivamente privi di fondamento o addirittura falsi.
Un nuovo benchmark chiamato HaluEval, introdotto nel 2023, mira a quantificare e analizzare questo fenomeno delle allucinazioni. I risultati sono preoccupanti: il popolare LLM ChatGPT è stato trovato ad allucinare informazioni inverificabili in circa il 19,5% delle sue risposte su un’ampia gamma di argomenti. Ancor più allarmante è che molti LLM leader, inclusi Claude 2, GPT-3 e altri, hanno ottenuto scarsi punteggi quando messi alla prova sulla capacità di rilevare allucinazioni nei loro stessi output.
Un’ulteriore area problematica è la tendenza degli LLM a produrre risposte non fattuali o persino contrarie alle conoscenze accettate su questioni concrete. Sul benchmark TruthfulQA, progettato per valutare la veridicità delle risposte dei modelli, anche i migliori LLM hanno ottenuto punteggi relativamente modesti. Sebbene GPT-4 con RLHF abbia segnato il punteggio attuale più alto di 0,6, questo rimane ben al di sotto da quanto ci aspettiamo da un’AI che deve prendere decisioni in contesti critici.
Queste persistenti carenze di affidabilità e robustezza rappresentano un serio ostacolo all’adozione degli LLM in domini sensibili come la finanza, il diritto e la medicina, dove le conseguenze di risposte fuorvianti o errate potrebbero essere disastrose. È imperativo che queste questioni vengano affrontate prima che gli LLM possano essere ampiamente implementati come assistenti attendibili.
Benchmark e sfide per il futuro
Mentre gli LLM hanno fatto progressi significativi sui benchmark di concezione tradizionale, c’è una crescente consapevolezza che molti di questi benchmark potrebbero non riflettere appieno le complessità e le sfide dei compiti del mondo reale. In risposta, sono stati introdotti nuovi dataset di benchmarking più impegnativi, progettati per valutare le capacità dei modelli AI in scenari più realistici e complessi.
Un esempio è SWE-bench, un recente benchmark che comprende 2.294 problemi di ingegneria del software estratti da vere segnalazioni di problemi su GitHub e repository Python popolari. A differenza di molti precedenti benchmark di codifica, SWE-bench richiede che i sistemi coordinino modifiche tra più funzioni, interagiscano con vari ambienti di esecuzione ed eseguano ragionamenti complessi.
I risultati su SWE-bench mettono in luce le sostanziali lacune che persistono nelle capacità di codifica degli LLM di punta. Anche il miglior modello, Claude 2 di Anthropic, è riuscito a risolvere solamente il 4,8% dei problemi del set di dati, evidenziando quanto lavoro rimanga da fare per portare questi sistemi al livello di competenza richiesto per applicazioni del mondo reale.
Questa necessità di benchmark più impegnativi e realistici è un tema ricorrente tra i ricercatori di AI. Man mano che le prestazioni dei modelli continuano a migliorare sui dataset esistenti diventa fondamentale introdurre benchmark che rispecchino più accuratamente le vere sfide e complessità che i sistemi AI dovranno affrontare nelle loro implementazioni pratiche. Solo affrontando queste sfide più ardue, i futuri progressi nell’AI potranno essere veramente trasformativi e portare a sistemi robusti e affidabili.
Progressi nel coding AI-Powered
Un’area che ha visto progressi particolarmente rapidi è l’abilità degli LLM di generare codice funzionante e risolvere problemi di programmazione. I ricercatori hanno introdotto numerosi benchmark appositamente progettati per valutare questa abilità di coding AI, come HumanEval, CodeXGLUE e il recente SWE-bench.
I risultati su questi benchmark dimostrano che, mentre i principali LLM stanno rapidamente migliorando nella generazione di codice corretto e idiomatico, persistono sfide significative quando si tratta di compiti più impegnativi come il debugging, il refactoring o la risoluzione di problemi di ingegneria del software del mondo reale.
Ad esempio, sul popolare HumanEval, la variante di GPT-4 chiamata “AgentCoder” ha di recente stabilito un nuovo record con il 96,3% dei problemi risolti correttamente. Eppure, quando testata su SWE-bench, una raccolta molto più complessa di problemi da GitHub ispirati al mondo reale, anche la migliore AI per il coding, Claude 2, ha risolto solo il 4,8% dei problemi.
Questo divario dimostra che, sebbene impressionanti, le attuali capacità di codifica AI rimangono limitate a compiti ben definiti e circoscritti. Per estendere queste abilità a scenari di ingegneria del software più generali e aperti, con requisiti vaghi e repliche di codice legacy, saranno necessari progressi significativi nelle capacità di ragionamento, astrazione e problem-solving dei sistemi AI.
A livello aziendale, comunque, anche le attuali limitate funzionalità di codifica AI stanno già trovando applicazioni preziose, come la generazione di snippet di codice, l’illustrazione di concetti di programmazione e l’assistenza allo sviluppatore. Man mano che questi sistemi miglioreranno, il loro impatto sul flusso di lavoro di sviluppo software probabilmente crescerà in modo esponenziale.
Conclusioni
I recenti progressi nell’intelligenza artificiale, incarnati dall’ascesa dei potenti modelli linguistici di grandi dimensioni come GPT-4, Claude e Gemini, sono stati rivoluzionari. Questi sistemi hanno stabilito nuovi record su benchmark particolarmente impegnativi, spingendo i confini delle capacità di comprensione del linguaggio, ragionamento e generazione di codice.
Eppure, per quanti siano stati i progressi, rimangono ancora ostacoli significativi da superare prima che i sistemi di AI possano essere considerati veramente affidabili e implementabili su larga scala. Le persistenti sfide delle allucinazioni, dell’imprecisione fattuale e della mancanza di robustezza sui compiti del mondo reale ostacolano l’adozione diffusa degli LLM nelle applicazioni ad alto rischio.
È cruciale che gli sforzi dei ricercatori si concentrino su queste aree problematiche chiave. L’introduzione di benchmark sempre più impegnativi e realistici, come HaluEval e SWE-bench, sarà fondamentale per guidare i futuri miglioramenti e garantire che i progressi dell’AI non siano semplicemente incrementi di punteggio su benchmark ormai datati, ma piuttosto miglioramenti tangibili nelle reali capacità dei sistemi.
Solo affrontando direttamente queste sfide difficili, la ricerca sull’AI può aspirare a realizzare pienamente la visione di sistemi artificiali intelligenti veramente affidabili, coerenti e robusti, in grado di svolgere il ruolo di assistenti effettivamente fidati per eseguire compiti pratici ed evitare pericolose deviazioni o errori. Questo traguardo rimane cruciale per l’adozione diffusa e di successo dell’AI nelle aziende e nella società in generale.