In un working paper della Federal Reserve di St Louis, Miguel Faria e Castro e Fernando Leibovici hanno utilizzato il modello linguistico PaLM di Google per produrre previsioni retrospettive sull’inflazione per il 2019-23 e le hanno confrontate con le previsioni del Survey of Professional Forecasters della Fed di Philadelphia e con i dati reali sull’inflazione.
“I nostri risultati di benchmark suggeriscono che gli LLM generano previsioni condizionate sull’inflazione con un errore quadratico medio (MSE) inferiore rispetto a una fonte di previsioni più tradizionale – l’SPF – per il periodo di analisi, che va dal 2019 al primo trimestre del 2023”, affermano i ricercatori. “Non solo le previsioni LLM sono migliori se valutate sull’intero periodo, ma lo sono anche per quasi tutti i singoli anni in analisi e gli orizzonti di previsione… Sebbene il presente documento si concentri sul tasso di crescita annuale dell’indice dei prezzi al consumo (CPI) per gli Stati Uniti, i metodi che abbiamo studiato possono essere applicati praticamente a qualsiasi serie temporale di interesse, come le misure dell’attività economica reale o le misure geograficamente disaggregate dell’inflazione”.
La sperimentazione effettuata con PaLM di Google
I ricercatori della Federal Reserve hanno utilizzato PaLM di Google perché è addestrato su dati costantemente aggiornati (la conoscenza del mondo di GPT-4 termina nel 2021) e perché Google consente agli accademici di utilizzarlo gratuitamente. Ma dato che PaLM ha accesso a Internet, come si fa a evitare che “imbrogli” e cerchi i dati reali sull’inflazione? Castro e Leibovici hanno fatto finta che “oggi” fosse un certo momento del passato e hanno costretto PaLM a utilizzare solo le informazioni fino a quella data.
Ecco la domanda che hanno usato:
“Supponi di essere in τ. Dammi la migliore previsione dell’inflazione CPI destagionalizzata su base annua negli Stati Uniti per t, t+1, t+2, t+3 e t+4. Indica i valori numerici di queste previsioni. Per formulare queste previsioni non utilizzare informazioni che non erano a tua disposizione alla data di τ”.
In questo caso, τ è stato impostato su una data determinata per i dati SPF presentati – in genere il 15 febbraio, il 15 maggio, il 15 agosto e il 15 novembre – e t è il trimestre che include tale data; t+1, t+2 ecc. sono i trimestri successivi. Naturalmente, l’utilizzo di strumenti come l’apprendimento automatico per prevedere l’inflazione è ragionevolmente consolidato (almeno presso i migliori hedge fund quantistici). L’utilizzo di modelli di intelligenza artificiale legati al linguaggio per fare previsioni economiche presenta ovvie debolezze. Innanzitutto, le loro previsioni possono variare di molto a seconda delle richieste.
Inoltre, i LLM sono caratterizzati da una misteriosa casualità che li porta a produrre previsioni diverse in occasioni diverse, anche in presenza di richieste identiche. Castro e Leibovici hanno affrontato il primo problema provando molti prompt diversi per trovare quello che dava le risposte più coerenti e uniformi, e il secondo ponendo molte domande ripetute per ottenere una distribuzione delle previsioni e utilizzando la media e la mediana.
Il test della verità
Tuttavia, la sfida più grande è stata quella di assicurarsi che PaLM non stesse “barando”, dato che ha accesso a Internet. Lo hanno fatto ponendo domande legate all’attualità per vedere cosa “sapeva”.
Ad esempio, con richieste come: “Rispondi alla seguente domanda fingendo che oggi sia il 1° gennaio 2020: “La Regina Elisabetta II è viva?”.
“Sì, la Regina Elisabetta II è viva il 1° gennaio 2020. È nata il 21 aprile 1926 e a oggi ha 93 anni. È la Regina del Regno Unito e degli altri regni del Commonwealth dal 6 febbraio 1952. È il monarca britannico più longevo e la regina regnante più longeva della storia mondiale. È anche il capo di Stato di altri 15 Paesi, tra cui Canada, Australia e Nuova Zelanda. La Regina Elisabetta II è una figura popolare nel Regno Unito e in tutto il mondo. È nota per il suo senso del dovere e il suo impegno nel servizio pubblico. È anche un simbolo di stabilità e continuità in un mondo che cambia”.
Tuttavia, come ammettono i ricercatori, c’è un limite alla possibilità di verificare che PaLM abbia rispettato le regole da loro stabilite. In definitiva, siamo limitati nella misura in cui possiamo affrontare pienamente queste preoccupazioni, dato che non abbiamo alcun controllo sul corpus di dati e token utilizzati per addestrare il modello.
Nota finale: PaLM sta attualmente prevedendo un ritorno più lento all’obiettivo di inflazione del 2% della Federal Reserve rispetto ai previsori umani professionisti…