Nuova mossa di OpenAI: è stato appena lanciato un avanzato chatbot AI con cui si può parlare. Il bot è già disponibile, ma solo per alcuni utenti, rappresenta l’impegno di OpenAI verso una nuova generazione di assistenti vocali alimentati dall’AI, sul modello di Siri e Alexa, ma con molte più capacità, per consentire conversazioni più naturali e fluide. Advanced Voice Mode offre conversazioni più naturali e in tempo reale, consente di interrompere in qualsiasi momento e percepisce e risponde alle emozioni dell’utente. È un passo avanti verso agenti AI più completi.
Cosa può fare il nuovo bot vocale di ChatGPT
Il nuovo bot vocale di ChatGPT è in grado di interpretare diversi toni di voce, rispondere alle interruzioni e rispondere alle domande in tempo reale. È stato anche addestrato per suonare più naturale e utilizzare le voci per trasmettere una vasta gamma di emozioni diverse.
La modalità vocale è alimentata dal nuovo modello GPT-4o di OpenAI, che combina capacità vocali, testuali e visive. Per raccogliere feedback, l’azienda inizialmente sta lanciando il chatbot a un “piccolo gruppo di utenti” paganti di ChatGPT Plus, ma afferma che renderà il bot disponibile a tutti gli abbonati a ChatGPT Plus questo autunno. Un abbonamento a ChatGPT Plus costa 20 dollari al mese.
OpenAI afferma che notificherà ai clienti che fanno parte della prima ondata di distribuzione tramite l’app ChatGPT e fornirà istruzioni su come utilizzare il nuovo modello. Le persone in versione alpha vedranno un avviso nell’app ChatGPT e un’e-mail con le istruzioni su come utilizzarla. La condivisione di video e schermo non farà parte della versione alpha, ma verrà lanciata in un secondo momento.
Lanciata con un mese di ritardo rispetto al previsto per garantire la sicurezza
A giugno OpenAI ha comunicato che stava lavorando per migliorare la capacità del modello di rilevare e rifiutare determinati contenuti. La nuova funzione vocale, annunciata a maggio, viene lanciata con un mese di ritardo rispetto ai piani originali perché l’azienda ha dichiarato di aver avuto bisogno di più tempo per migliorare le funzionalità di sicurezza, come la capacità del modello di rilevare e rifiutare contenuti indesiderati. L’azienda ha anche dichiarato di preparare la sua infrastruttura per offrire risposte in tempo reale a milioni di utenti.
OpenAI afferma di aver testato le capacità vocali del modello con più di 100 red-teamer esterni, incaricati di sondare il modello per individuare difetti. Questi tester hanno parlato un totale di 45 lingue e rappresentato 29 paesi, secondo OpenAI.
L’azienda afferma di aver messo in atto diversi meccanismi di sicurezza. In una mossa volta a prevenire l’uso del modello per creare deepfake audio, ad esempio, ha creato quattro voci preimpostate in collaborazione con professionisti della voce. GPT-4o non imiterà né genererà le voci di altre persone.
Quando OpenAI ha introdotto per la prima volta GPT-4o, l’azienda ha affrontato una reazione negativa per l’uso di una voce chiamata “Sky“, che suonava molto simile all’attrice Scarlett Johansson. Johansson ha rilasciato una dichiarazione affermando che l’azienda l’aveva contattata per ottenere il permesso di usare la sua voce per il modello, cosa che lei aveva rifiutato. Ha detto di essere rimasta scioccata nel sentire una voce “stranamente simile” alla sua nella demo del modello. OpenAI ha negato che la voce sia quella di Johansson, ma ha sospeso l’uso di Sky.
L’azienda è anche coinvolta in diverse cause legali per presunta violazione del copyright. OpenAI afferma di aver adottato filtri che riconoscono e bloccano le richieste di generare musica o altri contenuti audio protetti da copyright. OpenAI afferma inoltre di aver applicato gli stessi meccanismi di sicurezza utilizzati nel suo modello testuale a GPT-4o per impedirgli di violare le leggi e generare contenuti dannosi.
OpenAI ha in programma di condividere un rapporto dettagliato sul lavoro che ha svolto per rendere l’esperienza dell’Advanced Voice Mode più sicura per tutti all’inizio di agosto.
Altre funzionalità in arrivo
In futuro, OpenAI prevede di includere funzionalità più avanzate, come la condivisione di video e schermo, che potrebbero rendere l’assistente più utile. Nella demo di maggio, i dipendenti hanno puntato le fotocamere dei loro telefoni su un pezzo di carta e hanno chiesto al modello AI di aiutarli a risolvere equazioni matematiche. Hanno anche condiviso i loro schermi del computer e chiesto al modello di aiutarli a risolvere problemi di codifica. OpenAI afferma che queste funzionalità non saranno disponibili ora, ma in una data successiva non specificata.