L’audio, ultima frontiera dell’intelligenza artificiale. Negli ultimi mesi, OpenAI ha lavorato per rendere gli agenti testuali più intelligenti, capaci e utili con il rilascio di strumenti come Operator, Deep Research, Computer-Using Agents e l’API Responses con strumenti integrati. Tuttavia, per rendere gli agenti davvero efficaci, è fondamentale permettere interazioni più profonde e intuitive, che vadano oltre il semplice testo. “Usare il linguaggio parlato naturale per comunicare in modo efficace” è il prossimo passo.
Indice degli argomenti:
Nascono nuovi modelli audio nell’API
OpenAI ha presentato nuovi modelli di speech-to-text e text-to-speech nell’API, permettendo la creazione di agenti vocali ancora più potenti, personalizzabili e intelligenti. I nuovi modelli di riconoscimento vocale stabiliscono un nuovo standard in termini di precisione e affidabilità, superando le soluzioni esistenti, soprattutto in contesti complessi come quelli con accenti, ambienti rumorosi o velocità di parlato variabili.
Grazie a questi miglioramenti, le trascrizioni diventano più affidabili, rendendo i modelli particolarmente adatti a casi d’uso come call center, trascrizioni di riunioni e altro ancora.
Agenti vocali personalizzabili
Per la prima volta, gli sviluppatori possono istruire il modello di sintesi vocale non solo su cosa dire, ma anche su come dirlo. Ad esempio, si può chiedere al sistema di “parlare come un agente del servizio clienti empatico”. Questo apre a nuove possibilità per applicazioni su misura: voci più dinamiche ed empatiche per il customer service, narrazioni espressive per lo storytelling creativo, e molto altro.
Un percorso iniziato nel 2022
OpenAI ha lanciato il suo primo modello audio nel 2022 e, da allora, si è impegnata a migliorarne l’intelligenza, l’accuratezza e l’affidabilità. Con i nuovi modelli appena annunciati, gli sviluppatori possono ora costruire sistemi di riconoscimento vocale più precisi e robusti, oltre a voci sintetiche più espressive e caratterizzate, tutto tramite API.
Tra le voci preimpostate disponibili ci sono:
Calm, Surfer, Professional, Medieval knight, True crime buff, Bedtime story.
I nuovi modelli di riconoscimento vocale
I modelli gpt-4o-transcribe e gpt-4o-mini-transcribe introducono miglioramenti significativi nel tasso di errore delle parole (Word Error Rate, WER), nella comprensione linguistica e nella precisione, rispetto ai modelli precedenti (Whisper).
“gpt-4o-transcribe dimostra prestazioni WER migliorate rispetto ai modelli Whisper esistenti su più benchmark consolidati, riflettendo progressi significativi nella tecnologia speech-to-text.” Questi miglioramenti derivano da innovazioni mirate nel reinforcement learning e da una fase di addestramento su un vasto set di dati audio di alta qualità.
In pratica, questi nuovi modelli sono più abili nel cogliere le sfumature del parlato, ridurre i fraintendimenti e garantire trascrizioni affidabili, anche in contesti difficili.
Prestazioni sul benchmark Fleurs
Il Word Error Rate (WER) misura la precisione dei modelli di riconoscimento vocale calcolando la percentuale di parole trascritte erroneamente. Più basso è il WER, migliore è la performance.
I nuovi modelli OpenAI raggiungono un WER più basso su benchmark come Fleurs, che copre oltre 100 lingue e si basa su campioni audio trascritti manualmente. I risultati mostrano una maggiore precisione e una copertura linguistica più ampia, superando costantemente Whisper v2 e v3.

Il nuovo modello text-to-speech
Viene inoltre lanciato il modello gpt-4o-mini-tts, con una nuova caratteristica chiave: la steerability, ovvero la possibilità di controllare non solo cosa dire ma anche come dirlo.
Il modello è ora disponibile nella text-to-speech API. È importante notare che le voci disponibili sono artificiali e predefinite, monitorate attentamente per garantire coerenza e sicurezza.

Le innovazioni tecniche alla base dei modelli vocali di OpenAI
Addestramento su dataset audio autentici
I nuovi modelli audio si basano sull’architettura GPT-4o e GPT-4o-mini, e sono stati addestrati su dataset audio specializzati, fondamentali per ottimizzare le performance. Questo approccio consente una comprensione più profonda delle sfumature vocali.
Tecniche avanzate di distillazione
OpenAI ha migliorato le tecniche di distillazione, trasferendo la conoscenza dai modelli più grandi a quelli più piccoli ed efficienti. Grazie a metodologie di self-play, i dataset simulano conversazioni realistiche tra utenti e assistenti, migliorando la qualità dei modelli più compatti.
Reinforcement learning per la trascrizione
Nel caso dei modelli speech-to-text, è stato adottato un paradigma fortemente basato sul reinforcement learning, che ha spinto la precisione delle trascrizioni a livelli mai visti, riducendo le allucinazioni e migliorando l’affidabilità in scenari complessi.
Disponibilità e prossimi passi
I nuovi modelli audio sono già disponibili per tutti gli sviluppatori. È possibile iniziare a costruire esperienze vocali aggiungendo questi modelli alle soluzioni esistenti basate su testo. È stata inoltre rilasciata un’integrazione con Agents SDK per semplificare lo sviluppo.
Per esperienze vocali in tempo reale e a bassa latenza, si consiglia di utilizzare i modelli speech-to-speech tramite la Realtime API.
Guardando al futuro, OpenAI continuerà a investire nel miglioramento dell’intelligenza e dell’accuratezza dei modelli audio, esplorando anche la possibilità per gli sviluppatori di creare voci personalizzate, nel rispetto degli standard di sicurezza. Allo stesso tempo, prosegue il dialogo con policymaker, ricercatori, sviluppatori e creativi per affrontare le sfide e le opportunità legate alle voci sintetiche.