I ricercatori di Google hanno scoperto che l’aggiunta di un modello linguistico di grandi dimensioni a un modello di generazione audio migliora compiti come il riconoscimento vocale e la traduzione. Hanno così sviluppato AudioPaLM, una combinazione di AudioLM, un modello di generazione audio, e PaLM-2, il modello linguistico di punta di Google. AudioPaLM è stato progettato per sfruttare grandi quantità di dati di addestramento del testo per assistere le attività vocali.
Aggiungere un LLM a un sistema audio-generativo migliora l’elaborazione del parlato
I ricercatori di Google sostengono che l’aggiunta di un modello linguistico di grandi dimensioni per il solo testo a un sistema audio-generativo migliora l’elaborazione del parlato e supera i sistemi esistenti per le attività di traduzione vocale.
Un documento che illustra il modello mostra come AudioPaLM surclassi modelli di generazione audio come Whisper Large-v2 di OpenAI, mSLAM-CTC 2B e USM-M di Google, quando si utilizza il sistema CoVoST 2 per il test BLEU.
AudioPaLM può anche essere messo a punto per consumare e produrre audio tokenizzato su una serie di compiti speech-to-text. Il modello può anche eseguire la traduzione da parlato a testo a colpo zero per le lingue non presenti nel suo addestramento, semplicemente sulla base di un breve messaggio parlato.
Google non rilascia il codice del modello
Google ha scelto di non rilasciare il codice del modello, pubblicando invece una serie di esempi su GitHub.
I ricercatori della rivale Meta hanno optato per un metodo di rilascio simile per il suo modello di audio multimodale recentemente rilasciato, Voicebox, nel timore che potesse essere utilizzato per scopi dannosi. La ricerca di Google, tuttavia, non ha spiegato il motivo per cui ha scelto di non pubblicare il codice.
Oltre ad AudioPaLM, Google ha applicato PaLM a vari altri campi per ottenere risultati specifici per il settore, tra cui Sec-PaLM, in grado di rilevare script dannosi per gli esperti di cybersicurezza e Med-PaLM-2, che può essere utilizzato per aiutare a determinare problemi medici con immagini, come le radiografie.