Conversiamo con i chatbot, facciamo acquisti usando gli assistenti vocali e sfruttiamo la potenza dei robot, in particolare nel settore B2B. Ma nonostante tutti i vantaggi che l’interazione uomo macchina offre alle aziende che la utilizzano, l’impiego dell’AI spesso fallisce quando si tratta di riflettere la complessità della comunicazione umana in termini di espressività vocale, empatia ed emozioni. Dopotutto, un assistente vocale che non risponda al linguaggio di un utente risulta inutile per un’azienda che spera di ottenere più efficienza per sé e per i propri dipendenti grazie alla AI: la stessa inutilità che potrebbe avere uno strumento per i servizi sociali che si affidasse esclusivamente a un database di numeri e cifre per determinare l’ammissibilità di un contributo ignorando invece considerazioni di rilievo come la presenza di una malattia.
Un’interazione uomo-macchina empatica con intenzioni flessibili
Gli assistenti virtuali – sotto la forma di lettori di messaggi, previsori meteo o pianificatori di week-end – fanno già parte del tessuto sociale di molti di noi. Affinché questi possano essere percepiti meno come macchine e più come amici fidati e aiutanti personali, abbiamo urgentemente bisogno di studiare e capire come poter introdurre un maggior livello di emotività all’interno della relazione uomo-macchina. Dopo tutto, una macchina ci appare umana, più umano sarà il nostro comportamento nei suoi confronti. Un esempio per capire quanto siamo ancora lontani da questo obiettivo è il fatto che normalmente ci rivolgiamo agli assistenti vocali senza aggiungere formule di cortesia all’interno del discorso, sia per ragioni di chiarezza sia per comodità. ‘Alexa, cosa dicono le notizie di oggi?’.
Da diversi anni i designer di interfacce utente vocali (VUI, Voice User Interface) stanno lavorando per adattare le interazioni vocali digitali al comportamento umano. Il loro obiettivo è quello di creare un’interazione umo-macchina flessibile e non meccanica, della stessa qualità della comunicazione umana pura. A questo scopo, designer e programmatori stanno cercando di sviluppare ulteriormente competenze tecniche e creare comandi vocali flessibili chiamati ‘intenti’.
Particolare attenzione viene dedicata alla pronuncia dei termini stranieri e degli acronimi. È solamente quando Alexa pronuncia correttamente parole come ‘bourbon whiskey’ che la user experience viene percepita in termini umani. Dal punto di vista tecnico, il processo viene attivato nel modo seguente: nei controlli delle risposte di Alexa esiste un linguaggio di markup che dovrebbe risolvere questo problema. Tale linguaggio, chiamato SSML (Speech Synthesis Markup Language), era stato originariamente progettato per migliorare la monotona espressione delle macchine aggiungendovi l’intonazione e la modulazione tipiche del parlato umano: più alta o più bassa, inframmezzata da pause espressive. SSML permette ai programmatori di segnalare determinate parole, ad esempio, come inglesi, in modo che possano essere pronunciate automaticamente con l’intonazione corretta della lingua.
L’uso del linguaggio deve essere adattato alla lingua che viene parlata. In futuro, quando l’utente dialogherà con gli assistenti vocali, non dovrà più essere costretto a ottenere le informazioni desiderate solamente ricorrendo a comandi specifici o a quesiti formulati con precisione. Al contrario, l’utente dovrebbe essere in grado di parlare in maniera completamente libera e naturale. Così, anziché solo ‘Alexa, dimmi le previsioni del tempo’, Alexa dovrebbe rispondere anche a domande come ‘Oggi pioverà?’ o ‘Devo portarmi un ombrello?’.
Interazione uomo-macchina: tenere conto delle particolarità
Anche la più piccola delle sfumature – sarcasmo, forma dialettale, slang, peculiarità regionali o ironia – influenza significativamente il significato di una frase e il grado di soddisfazione nella comunicazione con un assistente vocale. Basta solo l’intonazione di una frase come ‘Molto divertente, Alexa!’ per capire se la barzelletta raccontata sia stata in linea con il senso dell’umorismo dell’utente. I cosiddetti ‘sentiment analyst’ sono esperti che hanno il compito di interpretare il tono e le varie distinzioni del linguaggio umano allo scopo di rispondere al contesto e al tono di una conversazione o, in caso di incertezza, di richiedere un chiarimento.
Comunicare il brand attraverso la macchina
Specialmente in contesti in cui KPI oggettivi come dati o prezzi si affermano difficilmente al primo posto, è importante coinvolgere le persone a livello emotivo quando si usano gli assistenti vocali. Product manager e progettisti di VUI devono quindi assicurarsi che il brand produca rapidamente un’immagine emotiva nella mente del cliente quando viene utilizzata questa interfaccia. Non sempre il cliente, infatti, si convince di un prodotto attraverso un altro touchpoint prima di ordinarlo attraverso un’interfaccia come Alexa. Il nome del brand e del prodotto, insieme a una breve descrizione, dovrebbero essere quindi adattati in funzione non solo dell’algoritmo ma anche del consumatore. Dopotutto, cosa preferiscono acquistare i clienti? Una ‘dichiarazione d’affetto verso tutti gli amanti del cioccolato croccante, impreziosita da armoniche note di vaniglia’ – o una ‘tavoletta da 100 g di cioccolata “White&Crisp”’?
Le macchine riconoscono il contesto
Sono molti i progressi raggiunti negli ultimi anni: in molti casi, i vantaggi delle applicazioni controllate dall’AI superano già quelli della comunicazione umana, specialmente nel settore dei servizi. Grazie all’AI, le lunghe attese telefoniche con gli operatori del servizio clienti, che terminavano parlando con un operatore non idoneo, sono diventate un ricordo passato. Le macchine oggi sono un supporto: riconoscono il contesto e possono dirottare velocemente una richiesta all’operatore più corretto. Possono, inoltre, confrontare automaticamente il problema del momento con quelli precedenti, proponendo una soluzione pressoché in real time. Tutto questo è vantaggioso tanto per il cliente quanto per gli operatori del customer service all’interno dell’azienda.
Si può anche immaginare che l’AI, sotto forma di bot, possa sostituirsi ad un operatore di customer service in maniera del tutto trasparente nelle comunicazioni multicanale, ad esempio per portare avanti la discussione con un cliente. Una chiamata che venisse interrotta potrebbe essere ripresa dallo stesso punto in occasione del contatto successivo, indipendentemente dal canale da cui è partita la conversazione originale. Il bot non si presenterebbe dicendo ‘Come posso aiutarla?’, ma piuttosto con ‘Sfortunatamente la nostra conversazione telefonica di ieri si è interrotta. Ha ancora problemi con la sua lavatrice?’.
Naturalmente il ricorso all’AI non risulta vantaggioso in tutte le aree dei servizi: dipende sempre dal settore, dallo scenario e dal contesto. Quello che viene considerato un benefit impagabile da una catena di ristoranti che offre la prenotazione dei tavoli mediante app non è necessariamente vantaggioso per un fornitore di sistemi di produzione industriale che riceve richieste estremamente variabili e personalizzate. A partire da un certo livello di informazione e interazione, uno smartphone o un Echo Dot diventano un collo di bottiglia – e quello è esattamente il punto in cui l’informazione e l’interazione diventano troppo complessi per l’AI e richiedono un intervento umano. Tale soglia, denominata ‘confidence level’, può essere innalzata costantemente attraverso il machine learning: gli algoritmi valutano tutte le interazioni tra esseri umani e chatbot per migliorare le prestazioni dell’interfaccia, aumentare la complessità delle attività controllate dalla AI e, non da ultimo, alleviare il carico di lavoro assegnato agli operatori umani. Ad oggi esistono ancora casistiche di comunicazione nelle quali persino la miglior VUI fallisce. In questi casi la conversazione dovrebbe essere trasferita a un operatore umano allo scopo di terminarla in maniera soddisfacente e documentare il mancato funzionamento utilizzando l’intelligenza artificiale per migliorare il knowledge base e, quindi, le conversazioni future.
Le casistiche d’uso, i settori e le situazioni in cui gli assistenti vocali possono rivelarsi pratici ed efficienti sono in continua crescita. Alla fine, l’AI di maggior successo sarà quella che prenderà in considerazione gli aspetti emotivi della comunicazione umana, che risponderà alla comunicazione naturale delle persone e che permetterà di interagire in modo trasparente attraverso differenti punti di contatto. Le possibilità tecniche che rendono possibile tutto questo stanno evolvendo rapidamente. Arriverà il giorno in cui non riusciremo più a distinguere l’interlocutore digitale da quello umano, e quel giorno è più vicino di quanto si possa immaginare.