RICERCA

Come usare l’AI generativa: la scelta è fra centauri e cyborg

Una recente ricerca condotta da un team di scienziati di varie università americane, in collaborazione con BCG, getta nuova luce sulle capacità dei modelli linguistici di affiancare il lavoro umano, definendo due categorie primarie di utilizzatori. Un articolo che tutti coloro che usano ChatGPT e Bard per lavoro dovrebbero leggere

Pubblicato il 19 set 2023

Pierluigi Sandonnini

giornalista

Sono in molti a chiedersi se l’AI sia davvero un problema per il futuro del lavoro. Su questo tema ha lavorato un team di scienziati sociali, in collaborazione con il Boston Consulting Group, trasformando i suoi uffici nel più grande esperimento sul futuro del lavoro professionale nell’epoca dell’intelligenza artificiale.

Il 16 settembre è stato pubblicato il primo documento di lavoro. Il documento contiene un’infinità di sfumature importanti e utili; la notizia principale è: per 18 compiti diversi, selezionati per essere campioni realistici del tipo di lavoro svolto in una società di consulenza d’élite, i consulenti che hanno utilizzato ChatGPT-4 hanno superato quelli che non l’hanno utilizzato, e di molto.

Le prestazioni non sono frutto di valutazioni empiriche ma sono state misurate.

Immagine che contiene testo, schermata, Diagramma, diagrammaDescrizione generata automaticamente

Distribuzione della qualità dei risultati in tutti i compiti. Il gruppo blu non ha utilizzato l’AI, i gruppi verde e rosso hanno utilizzato l’AI, mentre il gruppo rosso ha ricevuto una formazione aggiuntiva su come utilizzare l’AI.
Fonte: Harvard Business School

Indice degli argomenti:

I risultati dell’esperimento

I consulenti che hanno utilizzato l’AI hanno portato a termine in media il 12,2% di attività in più, hanno completato le attività il 25,1% più rapidamente e hanno prodotto risultati di qualità superiore del 40% rispetto a quelli che non l’hanno fatto. Si tratta di impatti molto importanti.

Innanzitutto, è importante dire che questo sforzo è stato multidisciplinare, coinvolgendo diversi tipi di esperimenti e centinaia di interviste, condotte da un grande team, tra cui gli scienziati sociali di Harvard Fabrizio Dell’Acqua, Edward McFowland III, Karim Lakhani e Ethan Mollick; Hila Lifshitz-Assaf della Warwick Business School e Katherine Kellogg del MIT.

Saran Rajendran, Lisa Krayer e François Candelon hanno condotto l’esperimento dal lato della BCG, utilizzando il 7% della sua forza di consulenza (758 consulenti). Tutti loro hanno svolto un lavoro molto accurato che va ben oltre il post.

Consulta il documento per tutti i dettagli.

La frontiera accidentata dell’AI

Nessuno conosce l’intera gamma di capacità dei modelli linguistici più avanzati, come GPT-4. Nessuno conosce i modi migliori per usarli o le condizioni in cui falliscono. Nessuno conosce i modi migliori per usarli o le condizioni in cui falliscono. Non esiste un manuale di istruzioni. Su alcuni compiti l’AI è immensamente potente, mentre su altri fallisce completamente o in modo sottile. Il risultato è quello che gli scienziati chiamano la “frontiera accidentata” delle capacità dell’AI.

Immaginate le mura di una fortezza, con alcune torri e merli che sporgono verso la campagna, mentre altre si ripiegano verso il centro del castello. Questo muro rappresenta la capacità dell’AI e più ci si allontana dal centro, più il compito è difficile. Tutto ciò che è all’interno del muro può essere fatto dall’AI, mentre tutto ciò che è all’esterno è difficile da fare per l’AI. Il problema è che il muro è invisibile, quindi alcuni compiti che logicamente potrebbero sembrare alla stessa distanza dal centro, e quindi ugualmente difficili – ad esempio, scrivere un sonetto e una poesia di 50 parole esatte – sono in realtà su lati diversi del muro. L’intelligenza artificiale è bravissima nel sonetto, ma, a causa del modo in cui concettualizza il mondo in token, piuttosto che in parole, produce costantemente poesie di più o meno di 50 parole. Allo stesso modo, alcuni compiti inaspettati (come la generazione di idee) sono facili per le AI, mentre altri compiti che sembrano facili da svolgere per le macchine (come la matematica di base) sono sfide per i LLM.

Ecco come ChatGPT con Code Interpreter visualizza questo concetto:

Hey GPT, I want you to create an image to illustrate our new paper on the effects of AI and work. And the key element of the paper is the idea of a jagged frontier. That AI capabilities are uneven and so tasks that seem to be of equal difficulty, some of those tasks will be just outside the frontier, some of the tasks will be inside. So I want you to create an image with whatever technique you want that shows a jagged frontier extending from a center point where the distance from the center indicates the difficulty of a task. And to show tasks that can be represented by points, for example, one just inside the wall of the frontier, one just outside the wall of the frontier, and one task labeled task outside the frontier, the other labeled task inside the frontier, and there will be a line, a circular line, showing that they are the same distance from the center, therefore the same difficulty level.

L’esperimento

Per verificare il reale impatto dell’AI sul lavoro della conoscenza, il team di ricercatori ha coinvolto centinaia di consulenti e ha randomizzato il loro utilizzo dell’AI. Ha dato a coloro che potevano usare l’AI l’accesso a GPT-4, lo stesso modello a cui tutti in 169 Paesi possono accedere gratuitamente con Bing o pagando 20 dollari al mese a OpenAI. Nessuna messa a punto o richiesta speciale, solo GPT-4 attraverso le API.

Sono stati quindi svolti molti test preliminari e sondaggi per stabilire le linee di base ed è stato chiesto ai consulenti di svolgere un’ampia varietà di lavori per un’azienda calzaturiera fittizia, lavori che il team BCG aveva selezionato per rappresentare accuratamente ciò che fanno i consulenti. C’erano compiti creativi (“Proponete almeno dieci idee per una nuova scarpa destinata a un mercato o a uno sport poco servito”), analitici (“Segmentate il mercato dell’industria calzaturiera in base agli utenti”), di scrittura e di marketing (“Redigete un comunicato stampa di marketing per il vostro prodotto”) e di persuasione (“Scrivete un promemoria di ispirazione per i dipendenti, spiegando perché il vostro prodotto sarebbe superiore ai concorrenti”). È stato anche verificato con un dirigente di un’azienda calzaturiera che questi compiti fossero realistici.

In linea con le teorie, si è riscontrato che i consulenti con accesso all’AI hanno ottenuto risultati significativamente migliori, sia che siano stati introdotti brevemente all’AI per primi (il gruppo “overview” nel diagramma), sia che non lo siano stati. Questo è stato vero per ogni misurazione, che si tratti del tempo impiegato per completare i compiti, del numero di compiti completati complessivamente (è stato dato loro un limite di tempo complessivo) o della qualità dei risultati. La qualità è stata valutata da valutatori umani e AI, che si sono trovati d’accordo tra loro (un dato interessante).

Immagine che contiene testo, schermata, linea, CarattereDescrizione generata automaticamente

Fonte BCG

I ricercatori hanno riscontrato anche un altro aspetto interessante, un effetto sempre più evidente in altri studi sull’AI: funziona come un livellamento delle competenze. I consulenti che hanno ottenuto i punteggi peggiori quando li abbiamo valutati all’inizio dell’esperimento hanno avuto il maggiore incremento delle loro prestazioni, pari al 43%, quando hanno potuto utilizzare l’AI. I consulenti migliori hanno comunque ottenuto un incremento, ma minore. Guardando a questi risultati, bisognerebbe valutare cosa significhi quando una tecnologia innalza tutti i lavoratori ai livelli più alti delle prestazioni.

Potrebbe essere come quando, un tempo, era importante se i minatori erano bravi o meno a scavare nella roccia… finché non è stata inventata la pala a vapore e ora le differenze di capacità di scavo non contano più. L’intelligenza artificiale non è ancora arrivata a questo livello di cambiamento, ma il livellamento delle abilità avrà un grande impatto.

Immagine che contiene testo, schermata, diagramma, designDescrizione generata automaticamente

Fuori dalla frontiera accidentata

BCG ha progettato un altro compito, accuratamente selezionato per garantire che l’AI non potesse giungere a una risposta corretta. Come si legge nel documento, “poiché l’AI si è dimostrata sorprendentemente capace, in questo esperimento è stato difficile progettare un compito al di fuori della frontiera dell’AI, dove gli esseri umani con un elevato capitale umano che svolgono il loro lavoro avrebbero costantemente superato l’AI”. I ricercatori hanno identificato un compito che utilizzava i punti ciechi dell’AI per garantire che fornisse una risposta sbagliata, ma convincente, a un problema che gli esseri umani sarebbero stati in grado di risolvere.

In effetti, i consulenti umani hanno azzeccato il problema nell’84% dei casi senza l’aiuto dell’AI, ma quando hanno usato l’AI hanno fatto peggio, azzeccando solo il 60-70% delle volte. Cosa è successo?

Immagine che contiene testo, schermata, Carattere, diagrammaDescrizione generata automaticamente

In un articolo, uno dei ricercatori, Fabrizio Dell’Acqua, mostra perché affidarsi troppo all’AI può ritorcersi contro. In un esperimento, ha scoperto che i reclutatori che hanno utilizzato un’AI di alta qualità sono diventati pigri, disattenti e meno abili nel loro giudizio. Si sono lasciati sfuggire alcuni candidati brillanti e hanno preso decisioni peggiori rispetto ai selezionatori che hanno utilizzato un’AI di bassa qualità o nessuna AI. Quando l’AI è molto buona, gli umani non hanno motivo di lavorare sodo e di prestare attenzione. Lasciano che prenda il sopravvento, invece di usarla come strumento. L’autore ha definito questo fenomeno “addormentarsi al volante”, che può danneggiare l’apprendimento, lo sviluppo delle competenze e la produttività degli esseri umani.

Nell’esperimento, il team ha scoperto che i consulenti si sono “addormentati al volante”: quelli che hanno usato l’AI hanno avuto risposte meno accurate di quelli a cui non è stato permesso di usare l’AI (ma hanno comunque fatto un lavoro migliore nella stesura dei risultati rispetto ai consulenti che non l’hanno usata). L’autorevolezza dell’AI può essere ingannevole se non si sa dove si trova la frontiera.

Centauri e cyborg

Molti consulenti sono riusciti a svolgere correttamente i compiti sia all’interno che all’esterno della frontiera, ottenendo i vantaggi dell’AI senza gli svantaggi. La chiave sembra essere quella di seguire uno dei due approcci: diventare un centauro o un cyborg. Fortunatamente, ciò non comporta l’innesto di dispositivi elettronici nel corpo o la maledizione di trasformarsi nel mezzo uomo/metà cavallo del mito greco… Si tratta piuttosto di due approcci per navigare nell’accidentata frontiera dell’intelligenza artificiale che integra il lavoro della persona e della macchina.

I centauri

Il lavoro dei centauri ha una chiara linea di demarcazione tra persona e macchina, come quella tra il torso umano e il corpo equino del mitico centauro. I centauri hanno una divisione strategica del lavoro, passando dai compiti dell’AI a quelli umani, assegnando le responsabilità in base ai punti di forza e alle capacità di ciascuna entità. Quando svolgiamo un’analisi con l’aiuto dell’AI, spesso la affrontiamo come un centauro. Decidiamo quali tecniche statistiche adottare, ma poi lasciamo che sia l’AI a produrre i grafici. Nello studio BCG, i centauri svolgevano da soli il lavoro in cui erano più forti, per poi affidare all’AI i compiti che si trovavano all’interno della frontiera accidentata.

I cyborg

D’altro canto, i cyborg fondono macchina e persona, integrandole profondamente. I cyborg non si limitano a delegare i compiti, ma intrecciano i loro sforzi con l’intelligenza artificiale, muovendosi avanti e indietro sulla frontiera accidentata. Alcuni compiti vengono affidati all’AI, ad esempio l’avvio di una frase che deve completare, in modo che i cyborg si trovino a lavorare in tandem con l’AI. Questo è il modo suggerito di affrontare l’utilizzo dell’AI per la scrittura, ad esempio.

Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente

Il modo di lavorare con l’AI

L’articolo, insieme a una serie di altri lavori di altri studiosi, suggerisce che, a prescindere dai dibattiti filosofici e tecnici sulla natura e sul futuro dell’AI, essa è già un potente fattore di disturbo per il nostro modo di lavorare. E non si tratta di una tecnologia nuova e ipnotizzata che cambierà il mondo in cinque anni, o che richiede molti investimenti e le risorse di grandi aziende: è qui, ora.

Gli strumenti che i consulenti hanno usato per potenziare il loro lavoro sono esattamente gli stessi a disposizione di chiunque legga questo post. E gli strumenti utilizzati dai consulenti saranno presto molto peggiori di quelli a nostra disposizione. Perché la frontiera tecnologica non è solo accidentata, ma si sta espandendo. Nel prossimo anno almeno due società rilasceranno modelli più potenti di GPT-4.

Anche a prescindere dall’ansia che questa affermazione potrebbe causare, vale la pena di notare gli altri aspetti negativi dell’AI. Quando si usa l’AI, le persone possono davvero usare il pilota automatico, addormentandosi al volante e non notando gli errori. Inoltre, come in altre ricerche, si riscontra che i risultati dell’AI, pur essendo di qualità superiore a quella degli esseri umani, sono anche un po’ omogenei e uguali nel complesso. Ecco perché i cyborg e i centauri sono importanti: permettono agli esseri umani di lavorare con l’AI per produrre risultati più vari, più corretti e migliori di quelli che gli esseri umani o l’AI possono ottenere da soli. Diventarlo non è difficile, basta usare l’AI per le attività lavorative e si comincerà a vedere la forma della frontiera accidentata e a capire dove l’AI è spaventosamente brava… e dove invece non è affatto all’altezza.

Conclusioni

La questione non è se l’AI rimodellerà il lavoro, ma cosa vogliamo che significhi. Possiamo scegliere come utilizzare l’AI per rendere il lavoro più produttivo, interessante e significativo. Ma dobbiamo fare queste scelte al più presto, in modo da poter iniziare a utilizzare attivamente l’AI in modi etici e validi, come cyborg o centauri, anziché limitarci a reagire ai cambiamenti tecnologici.

@RIPRODUZIONE RISERVATA

Argomenti

Canali