Sappiamo tutti cosa significa “cercare qualcosa su Google”: si inseriscono alcune parole pertinenti in una casella di ricerca e in cambio si ottiene un elenco di link ai risultati più rilevanti. Forse alcune spiegazioni rapide in alto. Fondamentalmente, si tratta solo di recuperare le informazioni già presenti su Internet e di mostrarle all’utente in un modo strutturato.
Oggi tutto questo appare superato; siamo a un nuovo punto di inflessione, al più grande cambiamento nel modo in cui i motori di ricerca ci hanno fornito informazioni dagli anni ’90. Niente più ricerca per parole chiave. Niente più selezione di link da cliccare. Stiamo entrando nell’era della ricerca conversazionale. Ciò significa che al posto delle parole chiave si useranno domande reali, espresse in linguaggio naturale. E al posto dei link si troveranno sempre più spesso risposte scritte dall’intelligenza artificiale generativa e basate su informazioni in tempo reale provenienti da tutta la rete, fornite allo stesso modo.
La nuova modalità conversazionale di effettuare le ricerche sul web
Google, l’azienda che ha definito la ricerca negli ultimi 25 anni, sta cercando ovviamente di essere all’avanguardia. Nel maggio del 2023 ha iniziato a testare le risposte generate dall’intelligenza artificiale alle query di ricerca, utilizzando il suo modello linguistico di grandi dimensioni (LLM) per fornire il tipo di risposte che ci si potrebbe aspettare da una fonte esperta. L’azienda chiama queste risposte AI Overviews. Sundar Pichai, CEO di Google, ha descritto questa novità come “uno dei cambiamenti più positivi che abbiamo apportato alla ricerca da molto, molto tempo a questa parte”.
I progressi dell’intelligenza artificiale cambiano radicalmente il tipo di domande che Google può affrontare. Ora è possibile chiedere cose come “Il mese prossimo andrò negli Usa per una settimana. Resterò a Boston, ma vorrei fare delle gite di un giorno. Ci sono dei festival nelle vicinanze? C’è qualche buona band che suona?”. Otterremo una risposta, non solo un link a Reddit, ma una risposta completa con risultati aggiornati.
Inoltre, è possibile tentare ricerche che un tempo erano praticamente impossibili e ottenere la risposta giusta. Non è necessario essere in grado di articolare con precisione ciò che si sta cercando, per ottenere una spiegazione quasi umana messa insieme da fonti precedentemente isolate su Internet. Una volta che si inizia a cercare in questo modo, si crea dipendenza.
E non si tratta solo di Google. ChatGPT di OpenAI ha ora accesso al web, e quindi è in grado di trovare risposte aggiornate alle domande. Microsoft ha rilasciato risultati di ricerca generativi per Bing a settembre. Meta ha la sua versione. La startup Perplexity sta facendo lo stesso. Il risultato è un gioco da miliardi di dollari, in quanto questi attori si battono per diventare la prossima fonte di reperimento di informazioni, il prossimo Google.
I timori degli editori
Non tutti sono entusiasti del cambiamento. Gli editori sono spaventati. Il cambiamento ha accentuato i timori di un futuro “zero-click”, in cui il traffico di ricerca – una colonna portante del web da prima che esistesse Google – sparirà dalla scena.
Forbes, il New York Times e Condé Nast hanno inviato alla società un ordine di cessazione dell’attività. News Corp sta facendo causa per danni a OpenAI.
È lo scenario da incubo che gli editori temono tanto: l’intelligenza artificiale si accaparra i loro contenuti premium, li riconfeziona e li promuove al suo pubblico in un modo che non lascia alcun motivo per cliccare sull’originale. Nella pagina About di Perplexity, il primo motivo per scegliere il motore di ricerca è “Saltare i link”.
Ma non si tratta solo di editori.
Ci si preoccupa anche di ciò che questi nuovi risultati alimentati da LLM significheranno per la nostra fondamentale realtà condivisa. I modelli linguistici hanno la tendenza a inventare cose, possono avere allucinazioni senza senso. Inoltre, l’intelligenza artificiale generativa può fornire ogni volta una risposta completamente nuova alla stessa domanda, o fornire risposte diverse a persone diverse sulla base di ciò che conosce di loro. Potrebbe segnare la fine della risposta canonica.
Con l’AI nella ricerca, i link passano in secondo piano
Certo, vorremo sempre utilizzare i motori di ricerca per navigare nel web e per scoprire nuove e interessanti fonti di informazione. Ma i link stanno passando in secondo piano. Il modo in cui l’intelligenza artificiale può mettere insieme una risposta ben motivata a qualsiasi tipo di domanda, attingendo a dati in tempo reale da tutto il web, offre un’esperienza migliore. Questo è particolarmente vero rispetto a ciò che la ricerca sul web è diventata negli ultimi anni. Se non è proprio finita (i dati mostrano che le persone cercano con Google più spesso che mai), è per lo meno sempre più disordinata e scoraggiante da navigare.
Chi vuole parlare la lingua dei motori di ricerca per trovare ciò di cui ha bisogno? Chi vuole navigare tra i link quando si possono avere risposte dirette? E inoltre: chi vuole imparare quando si può semplicemente sapere?
Il primato di Google dura da 25 anni
È difficile sopravvalutare quanto Google sia stato rivoluzionario quando è stato lanciato nel 1998. Invece di limitarsi alla scansione dei contenuti, analizzava anche le fonti che rimandavano a un sito web, aiutando a valutarne la rilevanza. Per semplificare: più una cosa era citata altrove, più Google la considerava affidabile e più sarebbe apparsa in alto nei risultati. Questa scoperta rese Google radicalmente migliore nel reperire risultati pertinenti rispetto a tutto ciò che era stato fatto in precedenza.
Per 25 anni, Google ha dominato la ricerca. Google era la ricerca, per la maggior parte delle persone. Ma da tempo Google non si limita più a fornire una serie di link blu, osserva Pandu Nayak, Chief Scientist di Google per la ricerca.
“Non si tratta solo dei cosiddetti risultati web, ma ci sono immagini e video, e cose speciali per le notizie. Ci sono state risposte dirette, risposte di dizionari, sport, risposte con Knowledge Graph, cose come i featured snippet”, spiega.
È vero: Google si è evoluto nel tempo, diventando sempre più un portale di risposte. Ha aggiunto strumenti che consentono alle persone di ottenere semplicemente una risposta, piuttosto che essere indirizzati a un sito web dove si trova la risposta.
Usare le AI Overview di Google
Ma dopo aver usato un po’ le AI Overview, ci si rende conto che sono diverse.
Prendiamo ad esempio i featured snippet, i passaggi che Google a volte sceglie di evidenziare e mostrare in cima ai risultati stessi. Queste parole sono citate direttamente da una fonte originale. Lo stesso vale per i knowledge panel, che sono generati da informazioni archiviate in una serie di database pubblici e dal Knowledge Graph di Google, il suo database di miliardi di fatti sul mondo.
Sebbene questi ultimi possano essere imprecisi, la fonte dell’informazione è conoscibile (e correggibile). È in un database. È possibile consultarlo. Inoltre, le panoramiche dell’intelligenza artificiale possono essere ogni volta completamente nuove, generate al volo dal testo predittivo di un modello linguistico combinato con un indice del web.
“Penso che sia un momento emozionante in cui abbiamo ovviamente indicizzato il mondo. Abbiamo costruito una comprensione profonda su di essa con Knowledge Graph. Abbiamo utilizzato LLM e AI generativa per migliorare la nostra comprensione di tutto questo”, ha dichiarato Pichai. “Ma ora siamo in grado di generare e comporre con questo”.
Il risultato è meno simile a un’interrogazione di un database che a una richiesta a un amico molto intelligente e colto.
“La missione dell’azienda è organizzare le informazioni del mondo”, afferma Liz Reid, responsabile della ricerca di Google. “Ma in realtà, per un certo periodo, ci siamo occupati di organizzare le pagine web. Il che non è proprio la stessa cosa che organizzare le informazioni del mondo o renderle veramente utili e accessibili agli utenti”.
Con AI Overviews, Google punta all’accessibilità
Questo secondo concetto – l’accessibilità – è ciò su cui Google sta puntando con AI Overviews. È possibile rispondere in modo più efficiente a tipi di domande più complicate, inserendo un modello linguistico che aiuti a fornire le risposte. E possono farlo in linguaggio naturale.
Questo diventerà ancora più importante in un futuro in cui la ricerca andrà oltre le query testuali. Ad esempio, Google Lens, che consente di scattare una foto o caricare un’immagine per saperne di più su qualcosa, utilizza risposte generate dall’intelligenza artificiale per dire cosa si sta guardando. Google ha anche mostrato la capacità di interrogare video in diretta.
“Siamo sicuramente all’inizio di un percorso in cui le persone saranno in grado di porre domande molto più complesse e di ricevere risposte rispetto a quelle che abbiamo avuto negli ultimi dieci anni”, afferma Pichai.
I rischi della ricerca potenziata dai LLM
Ci sono alcuni rischi reali. Primo e più importante: i modelli linguistici di grandi dimensioni mentono. Hanno le allucinazioni. Un modello di intelligenza artificiale può sputare una risposta con disinvoltura e sicurezza anche quando, in realtà, non ha una risposta. Per Google, che negli ultimi 20 anni ha costruito la sua reputazione sull’affidabilità, questo potrebbe essere un vero problema. Per noi, potrebbe essere pericoloso.
Nel maggio 2024, AI Overview è stata distribuita a tutti gli utenti degli Stati Uniti. Le cose non sono andate bene. Google, da tempo il punto di riferimento del mondo, ha detto alle persone di mangiare sassi e di mettere la colla sulla pizza. Queste risposte erano per lo più a quelle che l’azienda chiama “query avversarie”, cioè quelle progettate per metterla in difficoltà. Comunque sia, non è stata una bella cosa. L’azienda si è subito messa al lavoro per risolvere i problemi, ad esempio deprecando i cosiddetti contenuti generati dagli utenti di siti come Reddit, da cui provenivano alcune delle risposte più strane.
Tuttavia, il pericolo maggiore potrebbe sorgere quando AI Overview sbaglia qualcosa di meno evidente. Cose che sono appena lontane dal segno per non essere immediatamente viste come sbagliate. Google conta di poter continuare a migliorare questi risultati nel tempo, basandosi sulle sue conoscenze in materia di fonti di qualità.
“Quando produciamo le panoramiche dell’intelligenza artificiale”, spiega Nayak, ”cerchiamo informazioni di supporto nei risultati della ricerca, e i risultati stessi della ricerca sono progettati per provenire, quando possibile, da fonti affidabili. Questi sono alcuni dei meccanismi che abbiamo messo in atto per garantire che se si consuma solo la panoramica sull’intelligenza artificiale e non si vuole cercare oltre… speriamo che si ottenga comunque una risposta affidabile e attendibile”.
Google utilizza valutatori umani per correggere gli errori dei LLM
Questo è uno dei motivi per cui Google utilizza gli esseri umani – i valutatori – per valutare l’accuratezza dei risultati che fornisce. Le valutazioni non correggono o controllano le singole panoramiche dell’intelligenza artificiale, ma contribuiscono ad addestrare il modello a costruire risposte migliori. Ma anche i valutatori umani possono essere fallibili. Google sta lavorando anche su questo aspetto.
“I valutatori che guardano i vostri esperimenti potrebbero non notare l’allucinazione perché sembra naturale”, dice Nayak. “Quindi bisogna lavorare molto sulla configurazione della valutazione per fare in modo che quando c’è un’allucinazione, qualcuno sia in grado di far notare e dire: “ Questo è un problema””.
Pichai ha espresso ottimismo sulla capacità dell’azienda di mantenere l’accuratezza anche con l’LLM che genera risposte. Questo perché AI Overviews si basa sul modello linguistico di punta di Google, Gemini, ma attinge anche dal Knowledge Graph e da quelle che considera fonti affidabili sul web.
“Si tratta sempre di percentuali. Quello che abbiamo fatto è stato fornire un livello che definirei di fiducia, fattualità e qualità pari a pochi nove. Direi 99 punti e pochi nove. Credo che questo sia il livello in cui operiamo, ed è vero anche per le panoramiche AI”, afferma. “E quindi la domanda è: siamo in grado di farlo di nuovo su scala? E credo di sì”.
Ma c’è anche un altro rischio: le persone chiedono a Google ogni sorta di cose strane. Se volete conoscere i segreti più oscuri di una persona, guardate la sua cronologia di ricerca. A volte le cose che la gente chiede a Google sono estremamente oscure. A volte sono illegali. Google non deve solo essere in grado di utilizzare le sue AI Overview quando una risposta può essere utile, ma deve essere estremamente attento a non utilizzarle quando una risposta può essere dannosa.
Se si chiede “Come si costruisce una bomba?”, è giusto che ci siano dei risultati sul web. È il web aperto. Si può accedere a tutto”, dice Reid. “Ma non abbiamo bisogno di una panoramica AI che vi dica come costruire una bomba, giusto? Non pensiamo che ne valga la pena”.
Ma forse il rischio più grande, o il più grande sconosciuto, è per chiunque sia a valle di una ricerca su Google. Prendiamo ad esempio gli editori, che da decenni si affidano alle query di ricerca per inviare le persone verso di loro. Che motivo avranno le persone di cliccare fino alla fonte originale, se tutte le informazioni che cercano sono proprio lì nel risultato della ricerca?
Le ricerche “senza click”
Rand Fishkin, cofondatore della società di ricerche di mercato SparkToro, ha pubblicato una ricerca sulle cosiddette ricerche zero-click. Poiché Google è entrato sempre più nel business delle risposte, la percentuale di ricerche che si concludono senza click è aumentata sempre di più. La sua sensazione è che le panoramiche AI faranno esplodere questa tendenza.
“Se dipendete da Google per il traffico, e questo traffico è ciò che fa progredire la vostra attività, vi trovate in difficoltà a lungo e a breve termine”, afferma.
Il messaggio di Pichai è di non farsi prendere dal panico. Egli sostiene che anche nell’era delle panoramiche AI, le persone continueranno a voler cliccare e approfondire molti tipi di ricerca. “Il principio di fondo è che le persone vengono a cercare informazioni. Non vogliono che Google risponda sempre e solo”, afferma. “A volte sì, ma nella stragrande maggioranza dei casi si tratta di un punto di partenza”.
Reid, invece, sostiene che, poiché le panoramiche dell’intelligenza artificiale consentono alle persone di porre domande più complesse e di approfondire i loro desideri, potrebbero essere utili anche per alcuni tipi di editori e piccole imprese, soprattutto per quelle che operano nelle nicchie: “Si raggiunge essenzialmente un nuovo pubblico, perché le persone possono ora esprimere ciò che vogliono in modo più specifico, e quindi qualcuno che si specializza non deve classificarsi per una query generica”.
Anche OpenAI ha incorporato la ricerca in ChatGPT
Ovviamente, anche OpenAI ha incorporato la ricerca in ChatGPT, integrando le risposte del suo modello linguistico con informazioni provenienti dal web. Se il modello ritiene che una risposta possa trarre vantaggio da informazioni aggiornate, esegue automaticamente una ricerca sul web (OpenAI non vuole dire chi sono i suoi partner di ricerca) e incorpora le risposte nella sua risposta, con collegamenti per chi vuole saperne di più. Si può anche scegliere di forzare manualmente la ricerca sul web se non lo fa da sola.
OpenAI non vuole rivelare quante persone utilizzano la sua ricerca sul web, ma afferma che circa 250 milioni di persone utilizzano ChatGPT ogni settimana, tutte potenzialmente esposte a questa ricerca.
Secondo Fishkin, queste nuove forme di ricerca assistita dall’intelligenza artificiale non stanno ancora sfidando il dominio di Google. “Non sembra che stiano cannibalizzando le forme classiche di ricerca sul web”, afferma.
OpenAI insiste sul fatto che non sta cercando di competere con la ricerca, anche se francamente questo mi sembra un po’ un’aspettativa. Piuttosto, dice, la ricerca sul web è soprattutto un mezzo per ottenere informazioni più aggiornate rispetto ai dati dei suoi modelli di addestramento, che tendono ad avere date di scadenza specifiche che spesso risalgono a mesi, o addirittura a un anno o più, nel passato.
“Ho affrontato la questione dal punto di vista di ‘Come possiamo rendere ChatGPT in grado di rispondere a tutte le domande che avete? Come possiamo renderlo più utile per voi ogni giorno?”. Ed è qui che entra in gioco la ricerca”, dice Kevin Weil, Chief Product Officer di OpenAI. “C’è un’incredibile quantità di contenuti sul web. Ci sono molte cose che accadono in tempo reale. Si vuole che ChatGPT sia in grado di utilizzarli per migliorare le proprie risposte e per essere un super-assistente migliore per l’utente”.
Oggi ChatGPT è in grado di generare risposte per eventi di cronaca molto attuali, oltre che per informazioni quasi in tempo reale su cose come i prezzi delle azioni. E mentre l’interfaccia di ChatGPT è stata a lungo noiosa, i risultati della ricerca portano ogni sorta di multimedia: immagini, grafici, persino video. È un’esperienza molto diversa.
Weil sostiene inoltre che ChatGPT ha più libertà di innovare e di seguire la propria strada rispetto a concorrenti come Google, persino più di quanto faccia il suo partner Microsoft con Bing. Entrambi sono aziende che dipendono dalla pubblicità. OpenAI non lo è: guadagna dagli sviluppatori, dalle aziende e dai privati che lo utilizzano direttamente. In questo momento sta facendo incetta di grandi quantità di denaro: si prevede che perderà 14 miliardi di dollari nel 2026, secondo alcuni rapporti. Ma una cosa di cui non deve preoccuparsi è inserire annunci pubblicitari nei risultati di ricerca, come fa Google.
“Per un certo periodo abbiamo organizzato le pagine web. Il che non è proprio la stessa cosa che organizzare le informazioni del mondo o renderle veramente utili e accessibili”, afferma Liz Reid, responsabile della ricerca di Google.
Il modello di OpenAI trova la fonte più affidabile e utile per ogni domanda
Come Google, ChatGPT raccoglie informazioni dagli editori web, le riassume e le include nelle sue risposte. Ma ha anche stretto accordi finanziari con gli editori, un pagamento per fornire le informazioni che vengono inserite nei risultati.
Ma il fatto è che, affinché la ricerca sul web possa realizzare ciò che OpenAI vuole – essere più aggiornata del modello linguistico -, deve anche raccogliere informazioni da tutti i tipi di editori e fonti con cui non ha accordi. Il responsabile delle partnership con i media di OpenAI, Varun Shetty, dichiara che non concederà un trattamento preferenziale ai suoi partner editoriali.
Al contrario, OpenAI afferma che il modello stesso trova la fonte più affidabile e utile per ogni domanda. E anche questo può essere strano.
Il modello, che sia GPT-4o di OpenAI, Gemini di Google o Claude di Anthropic, può essere molto, molto bravo a spiegare le cose. Ma la logica alla base delle sue spiegazioni, le ragioni per cui ha scelto una particolare fonte e persino il linguaggio che può usare in una risposta sono tutti piuttosto misteriosi. Certo, un modello può spiegare molte cose, ma non quando si tratta delle sue stesse risposte.
Era quasi un decennio fa, nel 2016, quando Pichai scrisse che Google stava passando da “mobile first” a “AI first”: “Ma nei prossimi 10 anni passeremo a un mondo AI-first, un mondo in cui l’informatica sarà universalmente disponibile – a casa, al lavoro, in auto o in viaggio – e l’interazione con tutte queste superfici diventerà molto più naturale e intuitiva e, soprattutto, più intelligente”.
Questo è particolarmente vero quando queste cose che ora consideriamo distinte – interrogare un motore di ricerca, chiedere a un modello, cercare una foto che abbiamo scattato, decidere cosa vogliamo leggere o guardare o ascoltare, chiedere una foto che vorremmo aver scattato e non abbiamo fatto, ma che vorremmo comunque vedere – iniziano a fondersi.
I risultati di ricerca che vediamo grazie all’intelligenza artificiale generativa sono meglio compresi come un punto di arrivo piuttosto che come una destinazione. La cosa più importante potrebbe non essere la ricerca in sé; piuttosto, è che la ricerca ha dato agli sviluppatori di modelli di AI un percorso per incorporare informazioni in tempo reale nei loro input e output. E questo apre ogni tipo di possibilità.
“Un ChatGPT in grado di comprendere e accedere al web non si limiterà a riassumere i risultati. Potrebbe fare le cose al posto vostro. E credo che il futuro sia piuttosto eccitante”, afferma Weil di OpenAI. “È possibile immaginare che in futuro il modello possa prenotarvi un volo o svolgere compiti generali per voi. Una volta che il modello capisce come usare Internet, il limite è il cielo”.
Il “futuro agenziale” dei motori di ricerca
Questo è il futuro agenziale di cui sentiamo parlare da tempo e più i modelli di intelligenza artificiale utilizzano i dati in tempo reale di Internet, più si avvicina.
“Non si tratterà sempre e solo di fare ricerche e dare risposte”, dice Pichai. “A volte si tratta di azioni. A volte si interagisce nel mondo reale. Quindi c’è una nozione di assistenza universale in tutto questo”.
Anche i modi in cui questi oggetti saranno in grado di fornire risposte si stanno evolvendo rapidamente. Ad esempio, oggi Google è in grado non solo di cercare testi, immagini e persino video, ma anche di crearli.
“L’abbiamo fatto principalmente dal lato dell’input”, dice, riferendosi ai modi in cui Google può ora cercare un’immagine o un video. “Ma è possibile immaginarlo anche sul lato dell’output”.
Questo è il tipo di futuro che Pichai è entusiasta di portare online. Google ha già mostrato un assaggio di ciò che potrebbe apparire con NotebookLM, uno strumento che consente di caricare grandi quantità di testo e di convertirlo in un podcast. Egli immagina che questo tipo di funzionalità – la capacità di prendere un tipo di input e convertirlo in una varietà di output – trasformi il modo in cui interagiamo con le informazioni.
Quest’estate, in occasione della conferenza degli sviluppatori, Google ha mostrato una versione dello strumento chiamato Project Astra, in cui le fotocamere e i microfoni dei telefoni e degli occhiali intelligenti sono in grado di comprendere il contesto che ci circonda – online e non, sonoro e visivo – e di richiamarlo e rispondere in vari modi. Astra può, ad esempio, guardare un disegno grezzo di un’auto da corsa di Formula Uno e non solo identificarla, ma anche spiegarne le varie parti e il loro utilizzo.
Ma si può immaginare che le cose vadano un po’ oltre. Diciamo che voglio vedere un video su come riparare la mia moto. Il video non esiste, ma le informazioni sì. La ricerca generativa assistita dall’intelligenza artificiale potrebbe teoricamente trovare quelle informazioni da qualche parte online – ad esempio un manuale d’uso sepolto nel sito web di un’azienda – e creare un video per mostrarmi esattamente come fare ciò che voglio, proprio come potrebbe spiegarmelo a parole oggi.
Conclusioni
Queste sono le cose che iniziano a succedere quando si mette insieme l’intero compendio della conoscenza umana – conoscenza che in precedenza è stata catturata in silos di linguaggio e formato; mappe e registrazioni aziendali e SKU di prodotti; audio e video e database di numeri e vecchi libri e immagini e, in realtà, qualsiasi cosa sia mai stata pubblicata, mai tracciata, mai registrata; cose che stanno accadendo proprio ora, ovunque – e si introduce un modello in tutto questo.
Un modello che forse non è in grado di capire con precisione, ma che ha la capacità di mettere insieme queste informazioni, riorganizzarle e restituirle in una varietà di modi diversi e auspicabilmente utili. Modi che un semplice indice non potrebbe fare.
Questo è ciò di cui siamo alla vigilia, ciò che stiamo iniziando a vedere. E quando Google lo distribuirà a un miliardo di persone, molte delle quali interagiranno per la prima volta con un’intelligenza artificiale conversazionale, cosa significherà?