OpenAI scommette che gli assistenti potenziati dall’AI diventeranno di uso comune entro il prossimo anno. Durante il Developer Day, il 1° ottobre a San Francisco, ha annunciato il lancio in beta pubblica della Realtime API, che consente a tutti gli sviluppatori paganti di costruire esperienze multimodali a bassa latenza nelle loro applicazioni, oltre a tre altri tool.
Simile alla modalità vocale avanzata di ChatGPT, Realtime API supporta conversazioni naturali da voce a voce (speech to speech) utilizzando le sei voci preimpostate già supportate nell’API.
Viene poi introdotta una modalità di fine-tuning per GPT-4o che integra immagini e testo. Questo sviluppo apre nuove opportunità nel campo della ricerca visiva, del riconoscimento di oggetti e dell’analisi di immagini biomediche.
Terzo, la funzione Prompt Caching, che permette di ridurre i costi e la latenza del 50% per gli sviluppatori.
Infine, la Model Distillation supporta la creazione di modelli più compatti ed efficienti, mantenendo le prestazioni di modelli più grandi ma a costi ridotti.
Esploriamo come funzionano queste innovazioni.
OpenAI punta sugli agenti AI per il 2025
Gli agenti AI, capaci di ragionare e completare compiti complessi, rappresentano il nuovo fronte nella battaglia tra le aziende tecnologiche per aumentare i ricavi sfruttando questa tecnologia in rapido sviluppo.
OpenAI ha rivelato l’accesso aumentato alla sua nuova serie di modelli o1, che presenta capacità di ragionamento migliorate e avanzate capacità vocali di GPT-4o. Gli sviluppatori potranno accedere a questa tecnologia in tempo reale, permettendo all’AI di comprendere comandi vocali e conversare in scenari dal vivo, simili a una chiamata.
Kevin Weil, Chief product officer di OpenAI, ha dichiarato: “Vogliamo rendere possibile interagire con l’AI in tutti i modi in cui interagisci con un altro essere umano”. Weil prevede che i sistemi più agentici diventeranno realtà e che il 2025 sarà l’anno in cui questi sistemi raggiungeranno il mainstream.
OpenAI Real time API: le nuove funzionalità nella Chat Completions
OpenAI introduce l’input e l’output audio nella Chat Completions API per supportare casi d’uso che non richiedono i benefici di bassa latenza della Realtime API. Con questo aggiornamento, gli sviluppatori possono passare qualsiasi testo o input audio a GPT-4o e ottenere risposte sotto forma di testo, audio o entrambi.
Dalle app linguistiche al software educativo, fino alle esperienze di supporto clienti, gli sviluppatori hanno già sfruttato le esperienze vocali per connettersi con i loro utenti. Ora, con la Realtime API e presto con l’audio nella Chat Completions API, non sarà più necessario combinare più modelli per alimentare queste esperienze. Gli sviluppatori possono creare esperienze conversazionali naturali con una singola chiamata API.
Come funziona la Chat Completions API
In passato, per creare un assistente vocale simile, gli sviluppatori dovevano trascrivere l’audio con un modello di riconoscimento vocale automatico come Whisper, passare il testo a un modello di testo per l’inferenza o il ragionamento e poi riprodurre l’output del modello utilizzando un modello di sintesi vocale. Questo approccio spesso comportava la perdita di emozione, enfasi e accenti, oltre a una latenza significativa.
Con la Chat Completions API, gli sviluppatori possono gestire l’intero processo con una singola chiamata API, sebbene rimanga più lento rispetto alla conversazione umana. La Realtime API migliora questo aspetto trasmettendo direttamente gli input e gli output audio, consentendo esperienze conversazionali più naturali e gestendo automaticamente le interruzioni.
La Realtime API consente di creare una connessione WebSocket persistente per scambiare messaggi con GPT-4o. L’API supporta la chiamata di funzioni, rendendo possibile per gli assistenti vocali rispondere alle richieste degli utenti attivando azioni o recuperando nuovi contesti. Ad esempio, un assistente vocale potrebbe effettuare un ordine per conto dell’utente o recuperare informazioni rilevanti sui clienti per personalizzare le risposte.
OpenAI Realtime API: applicazioni e casi d’uso
Come parte della sua strategia di distribuzione iterativa, OpenAI ha testato la Realtime API con alcuni partner per raccogliere feedback. Alcuni dei casi d’uso:
- Healthify: un’app di coaching nutrizionale e fitness che utilizza la Realtime API per abilitare conversazioni naturali con il suo coach AI Ria, coinvolgendo dietisti umani quando necessario per un supporto personalizzato.
- Speak: un’app di apprendimento linguistico che utilizza la Realtime API per alimentare la sua funzione di gioco di ruolo, incoraggiando gli utenti a praticare conversazioni in una nuova lingua.
Disponibilità e prezzi
La Realtime API è disponibile in beta pubblica dal 1° ottobre per tutti gli sviluppatori paganti. Le capacità audio nella Realtime API sono alimentate dal nuovo modello GPT-4o gpt-4o-realtime-preview
. L’audio nella Chat Completions API sarà rilasciato nelle prossime settimane con il modello gpt-4o-audio-preview
. La Realtime API utilizza sia token di testo che token audio, con prezzi che variano in base al tipo di input e output.
L’API Realtime utilizza sia token di testo che token audio. I token di ingresso del testo hanno un prezzo di 5 dollari per 1M e di 20 dollari per 1M di token di uscita. L’input audio ha un prezzo di 100 dollari per 1M di token e l’output di 200 dollari per 1M di token. Ciò equivale a circa 0,06 dollari al minuto di input audio e 0,24 dollari al minuto di output audio. L’audio nell’API di completamento della chat avrà lo stesso prezzo.
Sicurezza e privacy
La Realtime API utilizza più livelli di protezione per mitigare il rischio di abuso dell’API, inclusi monitoraggio automatico e revisione umana degli input e output del modello segnalati. OpenAI dichiara che sarebbe contro le politiche di utilizzo riproporre o distribuire output dai suoi servizi per spam, inganno o altri danni, e di monitorare attivamente potenziali abusi. Inoltre, dichiara che i suoi impegni di privacy aziendale si applicano anche alla Realtime API.
OpenAI Realtime API, come iniziare
Gli sviluppatori possono iniziare a costruire con la Realtime API utilizzando il Playground, la documentazione e il client di riferimento. OpenAI ha collaborato con LiveKit e Agora per creare librerie client di componenti audio e con Twilio per integrare la Realtime API con le API vocali di Twilio.
I prossimi passi
OpenAI sta raccogliendo feedback per migliorare l’API Realtime. Alcune delle funzionalità che intende introdurre sono:
- Più modalità: all’inizio, l’API Realtime supporterà la voce e, col tempo, saranno aggiunte altre modalità come la visione e il video.
- Aumento dei limiti di velocità: oggi l’API è limitata a circa 100 sessioni simultanee per gli sviluppatori di livello 5, con limiti più bassi per i livelli 1-4. Col tempo questi limiti saranno aumentati per supportare distribuzioni più ampie.
- Supporto ufficiale dell’SDK: sarà integrato il supporto per le API Realtime negli SDK OpenAI Python e Node.js.
- Prompt Caching: sarà aggiunto il supporto per il Prompt Caching, in modo che i turni di conversazione precedenti possano essere rielaborati con uno sconto.
- Ampliamento del supporto ai modelli: l’API Realtime supporterà anche GPT-4o mini nelle prossime versioni del modello.
Fine tuning API
Al Developer Day, OpenAI ha presentato anche il Fine tuning API. Gli sviluppatori possono mettere a punto GPT-4o con immagini e testo per migliorare le capacità di visione
Gli sviluppatori possono personalizzare il modello in modo che abbia maggiori capacità di comprensione delle immagini, il che consente di realizzare applicazioni come una migliore funzionalità di ricerca visiva, un migliore rilevamento degli oggetti per veicoli autonomi o città intelligenti e un’analisi più accurata delle immagini mediche.
Fine tuning, come funziona
Il fine tuning della visione segue un processo simile a quello della messa a punto del testo: gli sviluppatori possono preparare i loro set di dati di immagini in modo che seguano il formato corretto e poi caricarli sulla piattaforma. Possono migliorare le prestazioni di GPT-4o per le attività di visione con appena 100 immagini e ottenere prestazioni ancora più elevate con grandi volumi di dati di testo e immagini.
Alcuni casi d’uso
Grab
Grab, azienda leader nel settore delle consegne di cibo e del rideshare, trasforma le immagini a livello stradale raccolte dai suoi autisti in dati di mappatura utilizzati per alimentare GrabMaps, un servizio di mappatura che consente a tutte le sue attività nel sud-est asiatico. Utilizzando la messa a punto della visione con soli 100 esempi, Grab ha insegnato a GPT-4o a localizzare correttamente i segnali stradali e a contare gli spartitraffico per perfezionare i dati di mappatura. Di conseguenza, Grab è riuscita a migliorare l’accuratezza del conteggio delle corsie del 20% e la localizzazione dei segnali di limite di velocità del 13% rispetto al modello GPT-4o di base, consentendo di automatizzare meglio le operazioni di mappatura da un processo precedentemente manuale.
Automat
Automat, un’azienda di automazione aziendale, crea agenti desktop e web che elaborano documenti e compiono azioni basate sull’interfaccia utente per automatizzare i processi aziendali. Grazie alla messa a punto della visione e a un set di schermate, Automat ha addestrato GPT-4o a individuare gli elementi dell’interfaccia utente su una schermata con una descrizione in linguaggio naturale, migliorando il tasso di successo dell’agente RPA dal 16,60% al 61,67%, con un aumento delle prestazioni del 272% rispetto a GPT-4o di base. Inoltre, Automat ha addestrato GPT-4o su appena 200 immagini di documenti assicurativi non strutturati per ottenere un aumento del 7% nel punteggioF1 sulle attività di estrazione delle informazioni.
Coframe
Coframe sta costruendo un assistente AI per l’ingegneria della crescita che aiuta le aziende a creare e testare continuamente variazioni dei loro siti web e delle loro interfacce utente per ottimizzare le metriche aziendali. Una parte fondamentale di questo compito è la generazione autonoma di nuove sezioni di un sito web basate sul resto del sito. Coframe ha incaricato GPT-4o di generare il codice per la sezione successiva di un sito web in base alle immagini e al codice esistente. Mettendo a punto GPT-4o con immagini e codice, ha migliorato la capacità del modello di generare siti web con uno stile visivo coerente e un layout corretto del 26% rispetto a GPT-4o di base.
Fine tuning API: disponibilità e prezzi
Le funzionalità di Vision fine tuning sono disponibili per tutti gli sviluppatori con livelli di utilizzo a pagamento. Queste funzionalità sono supportate dall’ultimo snapshot del modello GPT-4o, “gpt-4o-2024-08-06”. Gli sviluppatori possono estendere i dati di allenamento di fine-tuning esistenti per le immagini utilizzando lo stesso formato dei nostri endpoint di chat.
OpenAI offre gratuitamente 1 milione di token di addestramento al giorno fino al 31 ottobre 2024 per la messa a punto di GPT-4o con le immagini. Dopo il 31 ottobre 2024, l’addestramento di GPT-4o costerà 25 dollari per 1 milione di token e l’inferenza costerà 3,75 dollari per 1 milione di token di input e 15 dollari per 1 milione di token di output. Gli input di immagini vengono prima tokenizzati in base alle dimensioni dell’immagine e poi valutati alla stessa tariffa per token degli input di testo. Ulteriori dettagli sono disponibili alla pagina Prezzi API.
Per iniziare si può visitare la dashboard di messa a punto, fare clic su “crea” e selezionate “gpt-4o-2024-08-06” dal menu a tendina del modello di base.
Per sapere come mettere a punto GPT-4o con le immagini, visitare i documenti.
Nota: il modello base di GPT-4o si riferisce a gpt-4o-2024-08-06
.
Prompt Caching nell’API
Molti sviluppatori utilizzano lo stesso contesto ripetutamente in più chiamate API quando realizzano applicazioni di intelligenza artificiale, ad esempio per apportare modifiche a una base di codice o per intrattenere lunghe conversazioni a più turni con un chatbot. OpenAi ha introdotto il Prompt Caching, che consente agli sviluppatori di ridurre i costi e la latenza. Riutilizzando i token di input visti di recente, gli sviluppatori possono ottenere uno sconto del 50% e tempi di elaborazione dei prompt più rapidi.
Disponibilità e prezzi del Prompt Caching
Il Prompt Caching viene applicato automaticamente alle ultime versioni di GPT-4o, GPT-4o mini, o1-preview e o1-mini, nonché alle versioni perfezionate di questi modelli. I prompt in cache sono offerti con uno sconto rispetto a quelli non in cache.
Monitoraggio dell’uso della cache
Le chiamate API ai modelli supportati beneficiano automaticamente della cache dei prompt più lunghi di 1.024 token. L’API memorizza nella cache il prefisso più lungo di un prompt che è stato precedentemente calcolato, a partire da 1.024 token e con incrementi di 128 token. Se riutilizzate richieste con prefissi comuni, applicheremo automaticamente lo sconto sul Prompt Caching senza che dobbiate apportare alcuna modifica alla vostra integrazione API.
Le cache vengono in genere cancellate dopo 5-10 minuti di inattività e vengono sempre rimosse entro un’ora dall’ultimo utilizzo della cache. Come per tutti i servizi API, Prompt Caching è soggetto agli impegni di privacy aziendale. Le cache di Prompt non sono condivise tra le organizzazioni.
Prompt Caching è uno dei tanti strumenti a disposizione degli sviluppatori per scalare le loro applicazioni in produzione, bilanciando prestazioni, costi e latenza.
Per ulteriori informazioni, consultare i documenti di Prompt Caching.
Model distillation nell’API
OpenAI introduce una nuova offerta di Model Distillation per fornire agli sviluppatori un flusso di lavoro integrato per gestire l’intera pipeline di distillazione direttamente all’interno della piattaforma OpenAI. Ciò consente agli sviluppatori di utilizzare facilmente i risultati di modelli di frontiera come o1-preview e GPT-4o per mettere a punto e migliorare le prestazioni di modelli più efficienti dal punto di vista dei costi come GPT-4o mini.
La distillazione dei modelli prevede la messa a punto di modelli più piccoli ed efficienti dal punto di vista dei costi utilizzando i risultati di modelli più capaci, consentendo loro di eguagliare le prestazioni dei modelli avanzati su compiti specifici a un costo molto inferiore. Finora la distillazione era un processo in più fasi, soggetto a errori, che richiedeva agli sviluppatori di orchestrare manualmente diverse operazioni attraverso strumenti scollegati, dalla generazione dei set di dati alla messa a punto dei modelli e alla misurazione dei miglioramenti delle prestazioni. Poiché la distillazione è intrinsecamente iterativa, gli sviluppatori dovevano eseguire ripetutamente ogni fase, con un notevole dispendio di energie e complessità.
La nuova suite Model Distillation comprende:
- Stored Completion: gli sviluppatori possono generare facilmente set di dati per la distillazione catturando e memorizzando automaticamente le coppie input-output generate da uno dei nostri modelli, come GPT-4o o o1-preview, attraverso la nostra API. Con Stored Completions, è possibile creare facilmente insiemi di dati con i dati di produzione per valutare e perfezionare i modelli. Gli sviluppatori possono consultare questa guida all’integrazione per apprendere come effettuare l’opt-in per la memorizzazione dei completamenti.
- Valutazioni (beta): gli sviluppatori possono creare ed eseguire valutazioni personalizzate sulla nostra piattaforma per misurare le prestazioni del modello su compiti specifici. Invece di creare manualmente script di valutazione e integrare strumenti di registrazione diversi, Evals offre un modo integrato per misurare le prestazioni del modello. Per impostare le valutazioni è possibile utilizzare i dati degli Stored Completions o caricare set di dati esistenti. Evals può essere utilizzato anche indipendentemente dal fine-tuning per valutare quantitativamente le prestazioni del modello per i propri casi d’uso.
- Fine-tuning: Stored Completions e Evals sono completamente integrati con la nostra offerta di fine-tuning. Ciò significa che gli sviluppatori possono utilizzare i dataset creati con Stored Completions nei loro lavori di fine-tuning ed eseguire valutazioni sui modelli fine-tuning utilizzando Evals, il tutto all’interno della piattaforma.
Come utilizzare Model Distillation
Per prima cosa, creare una valutazione per misurare le prestazioni del modello in cui si desidera distillare. Questa valutazione verrà utilizzata per testare continuamente le prestazioni del modello distillato, per aiutarvi a decidere se distribuirlo.
Successivamente, utilizzare Stored Completions per creare un set di dati di distillazione di esempi reali, utilizzando i risultati di GPT-4o per le attività su cui si desidera perfezionare GPT-4o mini. È possibile farlo impostando il flag “store:true” nell’API Chat Completions per memorizzare automaticamente queste coppie di input-output senza alcun impatto sulla latenza. Questi completamenti memorizzati possono essere esaminati, filtrati e contrassegnati per creare insiemi di dati di alta qualità per la messa a punto o la valutazione.
Infine, utilizzare questo set di dati per mettere a punto GPT-4o mini. I completamenti memorizzati possono essere utilizzati come file di addestramento per la creazione di un modello ottimizzato. Una volta che il modello è stato messo a punto, si può tornare a Evals per verificare se il modello GPT-4o mini messo a punto soddisfa i criteri di prestazione rispetto a GPT-4o.
La messa a punto è un processo iterativo. Se i risultati iniziali non sono soddisfacenti, potrebbe essere necessario affinare il set di dati, regolare i parametri di addestramento o catturare esempi più specifici in cui il modello ha prestazioni inferiori. L’obiettivo è quello di migliorare progressivamente il modello distillato fino a ottenere prestazioni sufficienti per l’uso in produzione.
Disponibilità e prezzi
Model Distillation è disponibile per tutti gli sviluppatori e può essere utilizzato per distillare qualsiasi modello, compresi GPT-4o e o1-preview. Come promemoria, OpenAI offre anche 2 milioni di gettoni di formazione gratuiti al giorno su GPT-4o mini e 1 milione di gettoni di formazione gratuiti al giorno su GPT-4o fino al 31 ottobre per aiutare gli sviluppatori a iniziare con la distillazione. Al di là di questo limite, il costo della formazione e dell’esecuzione di un modello distillato è uguale ai prezzi standard di fine-tuning (vedi pagina dei prezzi API).
Stored Completions è disponibile gratuitamente. Le valutazioni, che sono disponibili in versione beta, vengono addebitate ai prezzi standard del modello in base ai token utilizzati. Fino alla fine dell’anno, gli sviluppatori possono eseguire valutazioni gratuitamente (fino a 7 a settimana) se decidono di condividere le loro valutazioni con OpenAI. Le valutazioni condivise saranno utilizzate per migliorare e valutare i modelli futuri.
Per ulteriori informazioni, consultare il documento Model Distillation.
Gli agenti AI sono una spinta ad aumentare i profitti
La spinta a portare gli agenti AI al mercato di massa è uno dei modi in cui OpenAI prevede che i suoi avanzamenti tecnologici contribuiranno a generare profitti futuri, mentre procede con i piani per ristrutturarsi come azienda a scopo di lucro.
Negli ultimi mesi, Microsoft, Salesforce e Workday hanno messo gli agenti al centro dei loro piani per l’AI, mentre Google e Meta hanno indicato che questo sarà un focus per loro nell’integrare i loro modelli di AI nei prodotti. Nonostante gli assistenti potenziati dall’AI siano in sviluppo da quasi un decennio, questi ultimi progressi permettono interazioni vocali più fluide e naturali e livelli di comprensione superiori grazie ai grandi modelli linguistici (LLM) che alimentano i nuovi modelli di AI.