Con una mossa improvvisa e a sorpresa, OpenAI ha annunciato che ChatGPT supporterà sia le richieste vocali degli utenti sia il caricamento delle immagini.
Gli utenti potranno conversare con il chatbot – in modo simile a come si parla con Alexa di Amazon, Siri di Apple o Google Assistant – e chiedergli di analizzare e reagire a qualsiasi immagine caricata, ad esempio traducendo i segni o identificando gli oggetti quando l’utente lo chiede nel testo che accompagna l’immagine caricata.
Gli input vocali saranno disponibili solo sulle applicazioni mobili ChatGPT di OpenAI per Android e iOS. Gli input di immagini saranno disponibili sulle app mobili e sul desktop.
OpenAI afferma che le funzionalità sono state alimentate dai suoi modelli proprietari di riconoscimento vocale, sintesi e visione e saranno rese disponibili, entro le prossime due settimane, a chi è abbonato a ChatGPT Plus ed Enterprise. Secondo l’azienda, altri gruppi di utenti, compresi gli sviluppatori, otterranno queste funzionalità subito dopo.
Come funzionano le indicazioni vocali e le immagini in ChatGPT
In un post sul blog pubblicato il 25 settembre, OpenAI ha dichiarato che gli utenti dovranno solo scegliere una delle cinque opzioni vocali, pronunciare ciò che desiderano e il bot utilizzerà la voce scelta per fornire la risposta.
L’azienda offre queste capacità con modelli speech-to-text e text-to-speech che funzionano quasi in tempo reale, convertendo la voce in ingresso in testo, inviando il testo al modello linguistico di base (LLM) GPT-4 di OpenAI per fornire una risposta e infine convertendo il testo nella voce selezionata dall’utente. OpenAI dichiara di aver collaborato con diversi artisti della voce per creare voci simili a quelle umane per la sintesi.
Mentre la voce aggiunge capacità di conversazione a ChatGPT, il supporto alle immagini gli conferisce la potenza di Google Lens, consentendo di fare semplicemente clic su un’immagine e aggiungerla alla chat con una potenziale domanda. ChatGPT analizzerà l’immagine nel contesto del testo che la accompagna e produrrà una risposta. Può anche avviare una conversazione con l’argomento in questione.
Le nuove funzionalità sembrano migliorare notevolmente l’utilità di ChatGPT e la scelta di OpenAI di implementarle ora è degna di nota, in quanto l’azienda non ha deciso di aspettare il rilascio dell’atteso GPT-4.5 o GPT-5 LLM per inserirle in quelle presunte prossime e più potenti AI.
Le nuove funzionalità saranno estese in seguito anche agli utenti non paganti
L’aggiornamento da parte di OpenAI arriva quasi un anno dopo il rilascio iniziale di ChatGPT e i numerosi aggiornamenti dei modelli e delle interfacce sottostanti. L’azienda ha dichiarato che si sta muovendo lentamente per assicurarsi che le capacità del bot non vengano abusate in alcun modo.
“Crediamo nella disponibilità graduale dei nostri strumenti, che ci consente di apportare miglioramenti e affinare le mitigazioni dei rischi nel tempo, preparando al contempo tutti a sistemi più potenti in futuro. Questa strategia diventa ancora più importante con i modelli avanzati che coinvolgono la voce e la visione”, ha dichiarato l’azienda nel blog.
Per evitare l’uso improprio delle sue capacità di sintesi vocale, che possono essere sfruttate a fini fraudolenti, l’azienda ne ha limitato l’uso alla sola chat vocale e ad alcune partnership approvate. Tra queste c’è quella con Spotify, dove la piattaforma musicale aiuta i podcaster a trascrivere i loro contenuti in diverse lingue mantenendo la propria voce.
Allo stesso modo, per evitare problemi di privacy e di accuratezza derivanti dal riconoscimento delle immagini, l’azienda ha anche limitato la capacità del bot di analizzare e fare affermazioni dirette sulle persone se sono presenti in un’immagine di input.
Le nuove funzionalità sono attese anche per gli utenti non paganti, ma l’azienda non ha ancora condiviso una tempistica precisa.