Da quando ChatGPT ha fatto la sua comparsa, nell’autunno del 2022, chiunque, dal più esperto al neofita, ha tentato di cimentarsi nel prompt engineering: l’arte di formulare in modo astuto le proprie richieste a un grande modello linguistico (LLM) o a un generatore di arte o video AI per ottenere i migliori risultati o aggirare le protezioni. Il web pullula di guide, trucchi e consigli per sfruttare al meglio un LLM. Nel settore commerciale, le aziende stanno ora domando gli LLM per costruire copiloti di prodotto, automatizzare lavori noiosi, creare assistenti personali e molto altro ancora, afferma Austin Henley, ex dipendente Microsoft che ha condotto una serie di interviste con persone che sviluppano copiloti alimentati da LLM. “Ogni azienda sta cercando di utilizzarlo per praticamente ogni caso d’uso che riesce a immaginare”, dice Henley. Per farlo, si sono avvalsi dell’aiuto professionale dei prompt engineer. Tuttavia, nuove ricerche suggeriscono che il prompt engineering va meglio se gestito dal modello stesso e non da un ingegnere umano. Questo ha gettato ombre sul futuro del prompt engineering – e aumentato i sospetti che una buona parte dei lavori in questo campo possano essere una moda passeggera, almeno così come è attualmente concepita.
I prompt sfuggono alla coerenza
I prompt autoregolati sono efficaci ma strani. Rick Battle e Teja Gollapudi di VMware, azienda californiana di cloud computing, erano perplessi di fronte alla capricciosa e imprevedibile performance degli LLM in risposta a tecniche di istruzione insolite. Ad esempio, si è scoperto che chiedere ai modelli di spiegare il proprio ragionamento passo dopo passo – una tecnica chiamata “catena del pensiero” – migliorava le loro prestazioni su una serie di domande di matematica e logica. Ancora più strano, Battle ha scoperto che dare al modello istruzioni positive, come “sarà divertente” o “sei intelligente come chatGPT”, a volte migliorava le prestazioni. Battle e Gollapudi hanno deciso di testare sistematicamente come diverse strategie di prompt engineering influenzano la capacità di un LLM di risolvere problemi matematici delle scuole elementari. Hanno testato tre diversi modelli linguistici open source con 60 diverse combinazioni di istruzioni ciascuno. Ciò che hanno scoperto è stata una sorprendente mancanza di coerenza. Anche l’istruzione a catena del pensiero a volte aiutava e altre volte danneggiava le prestazioni.
“L’unica vera tendenza potrebbe essere l’assenza di tendenze”, scrivono. “Ciò che è meglio per un determinato modello, dataset e strategia d’istruzione è probabilmente specifico per la particolare combinazione in questione”. Secondo un team di ricerca, nessun essere umano dovrebbe mai ottimizzare manualmente le istruzioni. Esiste un’alternativa al prompt engineering basata su tentativi ed errori che ha prodotto risultati così inconsistenti: chiedere al modello linguistico di ideare la sua istruzione ottimale. Di recente, sono stati sviluppati nuovi strumenti per automatizzare questo processo. Dati alcuni esempi e un criterio di successo quantitativo, questi strumenti troveranno iterativamente la frase ottimale da inserire nell’LLM.
I prompt generati automaticamente sono migliori di quelli ideati dall’uomo
Battle e i suoi collaboratori hanno scoperto che in quasi tutti i casi, questa istruzione generata automaticamente era migliore della migliore istruzione trovata attraverso tentativi ed errori. Inoltre, il processo era molto più veloce, richiedendo solo un paio d’ore invece di diversi giorni di ricerca. Le istruzioni ottimali che l’algoritmo ha prodotto erano così bizzarre che è improbabile che un essere umano le avrebbe mai concepite. “Non riuscivo a credere ad alcune delle cose che aveva generato”, dice Battle. In un caso, l’istruzione era semplicemente un lungo riferimento a Star Trek: “Comando, abbiamo bisogno che tu tracci una rotta attraverso questa turbolenza e individui la fonte dell’anomalia. Usa tutti i dati disponibili e la tua competenza per guidarci attraverso questa situazione difficile”. A quanto pare, pensare di essere il capitano Kirk ha aiutato questo particolare LLM a fare meglio con i problemi di matematica delle scuole elementari. Battle sostiene che ottimizzare le istruzioni algoritmicamente ha senso, dato che i modelli linguistici sono proprio quello: modelli.
“Molte persone antropomorfizzano queste cose perché ‘parlano inglese’. No, non lo fanno”, dice Battle. “Non parlano inglese. Fanno un sacco di matematica”. Infatti, alla luce dei risultati del suo team, Battle sostiene che nessun essere umano dovrebbe mai ottimizzare manualmente le istruzioni. “Stai lì, cercando di capire quale combinazione magica di parole ti darà la migliore performance possibile per il tuo compito”, dice Battle, “Ma è qui che speriamo entrerà in gioco questa ricerca e dirà ‘non perdere tempo’. Sviluppa solo un criterio di valutazione in modo che il sistema stesso possa dire se un’istruzione è migliore di un’altra, e poi lascia che il modello si ottimizzi da solo”.
I prompt autoregolati rendono le immagini più belle
Anche gli algoritmi di generazione di immagini possono beneficiare delle istruzioni generate automaticamente. Di recente, un team dei laboratori Intel, guidato da Vasudev Lal, si è messo in viaggio per ottimizzare le istruzioni per il modello di generazione di immagini Stable Diffusion. “Sembra più un bug degli LLM e dei modelli di diffusione, non una caratteristica, dover fare questo prompt engineering esperto”, dice Lal. “Quindi, volevamo vedere se potevamo automatizzare questo tipo di prompt engineering”.
Il team di Lal ha creato uno strumento chiamato NeuroPrompts che prende un’istruzione di input semplice, come “ragazzo su un cavallo”, e la migliora automaticamente per produrre una migliore immagine. Per fare ciò, hanno iniziato con una serie di istruzioni generate da esperti umani di prompt engineering. Hanno poi addestrato un modello linguistico a trasformare le istruzioni semplici in queste istruzioni di livello esperto. Inoltre, hanno utilizzato l’apprendimento per rinforzo per ottimizzare queste istruzioni per creare immagini più gradevoli esteticamente, come valutato da un altro modello di apprendimento automatico, PickScore, uno strumento di valutazione delle immagini recentemente sviluppato. Anche qui, le istruzioni generate automaticamente hanno fatto meglio delle istruzioni umane esperte che hanno usato come punto di partenza, almeno secondo il criterio PickScore. Lal ha trovato questo poco sorprendente. “Gli esseri umani lo faranno solo con tentativi ed errori”, dice Lal. “Ma ora abbiamo questa piena macchina, il ciclo completo che è chiuso con questo apprendimento per rinforzo… Questo è il motivo per cui siamo in grado di superare il prompt engineering umano“.
Poiché la qualità estetica è notoriamente soggettiva, Lal e il suo team volevano dare all’utente un certo controllo su come l’istruzione veniva ottimizzata. Nel loro strumento, l’utente può specificare l’istruzione originale (ad esempio, “ragazzo su un cavallo”) così come un artista da emulare, uno stile, un formato e altri modificatori. Lal ritiene che man mano che i modelli AI generativi evolvono, sia generatori di immagini che grandi modelli linguistici, le stranezze della dipendenza dalle istruzioni dovrebbero scomparire. “Penso che sia importante che queste tipologie di ottimizzazioni vengano indagate e poi, in ultima analisi, vengano davvero incorporate nel modello base stesso in modo da non aver bisogno di un complicato passaggio di prompt engineering”.
Il prompt engineering sopravviverà
Anche se l’autoregolazione delle istruzioni diventasse la norma del settore, i lavori di prompt engineering in qualche forma non spariranno, dice Tim Cramer, vicepresidente senior dell’ingegneria del software presso Red Hat. Adattare l’AI generativa alle esigenze dell’industria è un compito complesso e multistadio che continuerà a richiedere la presenza umana nel ciclo per il futuro prevedibile. “Credo che ci saranno prompt engineer per molto tempo ancora, e data scientist”, dice Cramer. “Non si tratta solo di fare domande all’LLM e assicurarsi che la risposta sembri buona. Ma c’è una serie di cose che i prompt engineer devono davvero essere in grado di fare”. “È molto facile fare un prototipo”, dice Henley. “È molto difficile renderlo produttivo”. Il prompt engineering sembra un grande pezzo del puzzle quando si sta costruendo un prototipo, dice Henley, ma molte altre considerazioni entrano in gioco quando si sta realizzando un prodotto di livello commerciale.
Le sfide della realizzazione di un prodotto commerciale includono garantire l’affidabilità – ad esempio, fallire con grazia quando il modello va offline; adattare l’output del modello al formato appropriato, poiché molti casi d’uso richiedono output diversi dal testo; testare per assicurarsi che l’assistente AI non farà qualcosa di dannoso anche in un piccolo numero di casi; e garantire sicurezza, privacy e conformità. I test e la conformità sono particolarmente difficili, dice Henley, poiché le strategie tradizionali di test dello sviluppo del software sono male adattate per gli LLM non deterministici. Per svolgere questi compiti molteplici, molte grandi aziende stanno annunciando un nuovo titolo lavorativo: Large Language Model Operations, o LLMOps, che include il prompt engineering nel suo ciclo di vita ma comprende anche tutti gli altri compiti necessari per il dispiegamento del prodotto.
Henley afferma che i predecessori degli LLMOps, gli ingegneri delle operazioni di apprendimento automatico (MLOps), sono i più adatti a svolgere questi lavori. Che il titolo del lavoro sia “prompt engineer”, “LLMOps engineer” o qualcosa di completamente nuovo, la natura del lavoro continuerà a evolversi rapidamente. “Forse oggi li chiamiamo prompt engineer”, dice Lal, “Ma penso che la natura di quell’interazione continuerà a cambiare man mano che anche i modelli AI cambiano”. “Non so se lo combineremo con un’altra categoria o ruolo lavorativo”, dice Cramer, “Ma non credo che queste cose spariranno presto. E il panorama è semplicemente troppo pazzo in questo momento. Tutto sta cambiando così tanto. Non riusciremo a capire tutto in pochi mesi”.
Henley sostiene che, almeno in questa fase iniziale, l’unica regola dominante in questo campo sembra essere l’assenza di regole. “È un po’ come il Far West…”, afferma.