Non molto tempo dopo l’invenzione dei computer negli anni Quaranta, le aspettative sulla intelligenza artificiale (AI) erano già alte. Herbert Simon, un pioniere dell’intelligenza artificiale nel 1965 predisse che “le macchine saranno in grado, entro vent’anni, di fare qualsiasi lavoro che un uomo possa fare”. Queste previsioni si sono poi rivelate ottimistiche; ma riguardavano le tecniche di allora, basate sull’automazione del ragionamento simbolico. Oggi, le aspettative sono di nuovo elevate. Gran parte di questo ottimismo deriva dagli straordinari progressi nell’apprendimento automatico nella visione artificiale, nel riconoscimento vocale, nei veicoli autonomi, nella traduzione automatica e in molti altri settori. Ci si chiede: può l’intelligenza artificiale compararsi con l’intelligenza dei business manager?
La narrazione dell’impatto dell’AI sul business che domina nei mezzi di comunicazione è focalizzata sui modelli di apprendimento supervisionati. In genere, si parte da una storia in cui, dopo essere stato esposto a un numero enorme di esempi di decisioni corrette (e scorrette), un modello ML supervisionato ha appreso come decidere meglio e prima di una persona umana. Poi, si passa al commento: la prevalenza dei modelli ML farà inevitabilmente sì che all’uomo resti solo la responsabilità (legale e morale) delle decisioni, senza che ne abbia più il controllo, almeno quello autorizzativo o a priori (il controllo sanzionatorio o a posteriori sulle decisioni dei modelli ML resta possibile, se il processo decisionale del modello può essere verificato, ma pone il problema di chi deve rispondere di eventuali decisioni del modello che – per quanto corrette – danneggino indebitamente una terza parte).
Parliamo dell’applicazione dell’intelligenza artificiale al business, o meglio all’attività manageriale, che rappresenta un paradigma valido per molti processi decisionali nelle organizzazioni. Nel contesto del management, i modelli ML possono ricoprire il ruolo di decisori diretti, oppure di information scout che scoprono informazioni preziose nascoste nei dati di funzionamento delle organizzazioni per aiutare il decisore umano.
Manager umani e intelligenza artificiale
Cominciamo con un’osservazione apparentemente banale: i modelli ML si basano su esempi raccolti al fine di risolvere un problema noto, e molti problemi di management diventano noti solo quando si presentano. Chi vive l’esperienza delle piattaforme AI per il business sa benissimo che le aziende che si avvicinano all’AI restano spesso deluse dal fatto che la formalizzazione del problema da risolvere con l’apprendimento computazionale non è automatica. Anche quando il problema è ben identificato, senza dati di addestramento della quantità e qualità necessarie, il modello ML produrrà un output inaccurato e potenzialmente inutilizzabile. Questo problema è spesso affrontato attraverso il cosiddetto transfer learning: un fornitore di modelli ML prepara il suo modello su abbondanti dati di qualità che ha accumulato lui stesso, e poi lo precisa e personalizza su una quantità (inferiore) di dati fornitigli dal cliente che userà il modello sulla base del suo ambiente di utilizzo. Il transfer learning ha funzionato bene per i problemi di visione delle macchine, dove la situazione di addestramento primario e quella di personalizzazione hanno una relazione nota. Un modello ML che controlla la frenata assistita sulla base dell’immagine ripresa dalla telecamera anteriore di un’auto può essere benissimo pre-addestrato dal fornitore in Europa e poi personalizzato per i mercati di destinazione, ad esempio aggiungendo riprese fatte in Medio Oriente dove luce solare e polvere sospesa modificano le immagini in modo noto.
Per il management, la questione è diversa. Prendiamo l’esempio della logistica, che è stato oggetto di vari progetti di ricerca e sviluppo europei in ambito AI. Se desideriamo un modello ML che ricopra come decisore diretto il ruolo di traffic manager per la flotta di veicoli aziendali e ne gestisca i percorsi, oppure che operi come scout e predìca gli ingorghi giorno per giorno per conto di un traffic manager umano, è necessario esporre il modello a una quantità elevata di dati storici su ingorghi, date, orari e condizioni meteorologiche. Va notato che il nostro modello non potrà “fare carriera” fino al livello di top manager, perché i dati richiesti per prevedere un ingorgo nel traffico sono diversi dai dati necessari per altri problemi che un top manager deve saper risolvere, ad esempio prevedere l’effetto di un piano di sostituzione dei veicoli, anche se l’addestramento utilizzasse lo stesso algoritmo in entrambi i casi.
A questa osservazione si può rispondere creando vari modelli ML specializzati sulle varie classi di problemi, e dando al modello ML visibilità su tutti gli osservabili del funzionamento aziendale. Rimane però una differenza importante tra il funzionamento di un modello ML e quello di un manager umano, dovuta alla natura stessa del procedimento di apprendimento supervisionato. Una differenza tra l’intelligenza artificiale e quella dei business manager.
Una parentesi matematica
Per capire il problema, consideriamo la tecnica di Gradient Descent (GD) utilizzata dagli algoritmi che addestrano modelli ML supervisionati. Per semplicità, faremo riferimento all’addestramento di un modello ML per la classificazione, definito da una funzione Fw : I → C che fa corrispondere elementi dello spazio dei dati di input I a un insieme finito C di classi o categorie. Ad esempio, gli input a Fw possono essere le letture di sensori di velocità posti in vari punti di un’autostrada, e gli output possono essere le etichette (ingorgo, traffico normale). Il pedice in Fw evidenzia i parametri interni (w) del classificatore ML che saranno modificati dall’addestramento.
L’algoritmo di addestramento regola i parametri w in modo che Fw coincida il più possibile con una funzione f: I → C, che esprime la corretta classificazione di tutti gli elementi di input possibili. Ovviamente, f non ci è nota (altrimenti useremmo quella, senza bisogno di modelli ML); ma abbiamo esempi dei suoi valori (cioè, di classificazioni giuste del passato) e guardando funzionare Fw, possiamo stabilire quanto vicina è a f sulla base del numero di errori che fa.
L’algoritmo di addestramento cerca i valori dei parametri w che minimizzano gli errori sugli esempi noti. Si basa su una nozione matematica che può essere espressa come segue: in qualsiasi funzione che cambia in modo fluido, il valore massimo o un minimo è sempre posizionato dove la funzione si appiattisce, cioè dove la pendenza del grafico della funzione è zero. La matematica del liceo scientifico ci dice che una funzione di una singola variabile f (x) si appiattisce dove la sua derivata f ′, che esprime la sua pendenza, è zero. Per le funzioni multidimensionali f (x), dove x è un array di variabili, possiamo invece cercare i punti in cui il gradiente f, che è l’analogo multidimensionale della derivata, diventa zero. La versione di base di GD funziona come segue: l’algoritmo GD parte da un modello Fw generato casualmente. Ad ogni passaggio, perturba i parametri w, applica il modello Fw a uno o più elementi dell’insieme di addestramento (di cui sono note le classi) e calcola l’errore, ovvero la differenza Ew tra le classi indicate da Fw per quegli elementi e le classi a cui effettivamente appartengono. Quindi, aggiorna w sulla base del gradiente dell’errore E , che esprime la variazione dell’errore rispetto ai valori circostanti di w (oggi sappiamo come fare questo aggiornamento anche quando la struttura del modello è complessa e ci sono molti parametri w) . L’obiettivo finale è trovare il punto in cui il gradiente è zero, ovvero i parametri w che minimizzano l’errore sugli esempi noti. Se poi l’addestramento “generalizza” bene, il modello Fw corrispondente a questo w si comporterà ragionevolmente (cioè, sbaglierà poco) anche quando in input gli verranno presentati valori che non facevano parte degli esempi.
L’intelligenza del manager
La descrizione precedente ci fa capire come l’apprendimento computazionale supervisionato sia molto diverso dal processo di formazione che gli esseri animali giovani (compresi gli esseri umani) sperimentano in ambito sociale. L’addestramento dei modelli ML supervisionati richiede l’esposizione di un numero elevato di esempi etichettati, molti di più di quelli a cui è esposto un umano; ma soprattutto garantisce l’assenza di penalità gravi per l’errore in fase di addestramento. Se un errore eccessivo in fase di addestramento può comportare danni irreparabili all’azienda (o il licenziamento del manager), certe traiettorie di minimizzazione dell’errore che richiedono di sbagliare molto o molto spesso all’inizio non sono percorribili. Si può certo ricorrere all’apprendimento supervisionato in contesti simulati, in modo da non avere penalità; ma molte situazioni manageriali sono difficili da simulare adeguatamente.
Gli economisti e gli studiosi di business management hanno evidenziato questa differenza, e alcuni hanno espresso la convinzione che l’AI per il management dovrebbe fare affidamento principalmente sull’apprendimento senza supervisione, dove non ci sono esempi noti a priori, ma la modifica dei parametri w del modello dipende invece dal valore di una funzione di penalty che misura l’efficacia a posteriori della decisione presa (una sorta di learning by doing). Questo permette al procedimento di apprendimento del manager di evitare valori di w che porterebbero sì a un miglioramento delle sue capacità di decisione future, ma al prezzo di una penalty insostenibile oggi.
Altri ricercatori ci ricordano che una parte rilevante del comportamento umano non è il risultato di algoritmi di apprendimento intelligenti – supervisionati o non – ma è codificato nel nostro genoma. GIi umani nascono con una connettività cerebrale altamente strutturata, che ci consente di apprendere molto rapidamente. Poiché la struttura del modello è troppo complessa per essere specificato esplicitamente nel genoma, è compresso attraverso un “collo di bottiglia genomico” che spinge lo sviluppo del cervello verso una struttura in grado di apprendere rapidamente. Questo collo di bottiglia – e il suo effetto facilitatore per l’apprendimento – è il risultato di milioni di anni di evoluzione. I modelli ML sono evolutivamente nati ieri: possono schiacciare gli avversari umani in giochi come gli scacchi e il Go, il risultato di metterli in grado di esplorare nuovi mercati, o di proporre un servizio innovativo, può non essere alla portata diretta degli algoritmi di apprendimento.