Google AudioLM genera musica a partire da un frammento

La tecnica, chiamata AudioLM, crea suoni naturalistici senza la necessità di annotazioni umane. Potrebbe essere utilizzata per creare colonne sonore di sottofondo dal suono più naturale per video e presentazioni, mentre la tecnologia di generazione vocale potrebbe aiutare a migliorare gli strumenti di accessibilità a Internet e i bot in contesti sanitari

Si chiama AudioLM il nuovo sistema sviluppato dai ricercatori di Google: genera un audio che si adatta allo stile del prompt, inclusi suoni complessi come la musica per pianoforte, in un modo che è quasi indistinguibile dalla registrazione originale. La tecnica mostra la promessa di accelerare il processo di addestramento dell’AI per generare audio e potrebbe eventualmente essere utilizzata per generare automaticamente musica per accompagnare i video. A questo link è possibile ascoltare tutti gli esempi.

L’audio generato dall’intelligenza artificiale è all’ordine del giorno: le voci degli assistenti domestici come Alexa utilizzano l’elaborazione del linguaggio naturale. I sistemi musicali di intelligenza artificiale come il Jukebox di OpenAI hanno già generato risultati impressionanti, ma la maggior parte delle tecniche esistenti richiede persone per preparare trascrizioni ed etichettare dati di allenamento basati su testo, il che richiede molto tempo e lavoro umano. Jukebox, ad esempio, utilizza dati basati su testo per generare testi di canzoni.

AudioLM, descritto in un articolo non peer-reviewed, è diverso: non richiede trascrizione o etichettatura. Invece, i database audio vengono inseriti nel programma e l’apprendimento automatico viene utilizzato per comprimere i file audio in frammenti audio, chiamati “token”, senza perdere troppe informazioni. Questi dati di training tokenizzati vengono quindi inseriti in un modello di apprendimento automatico che utilizza l’elaborazione del linguaggio naturale per apprendere i modelli del suono.

Per generare l’audio, alcuni secondi di suono vengono immessi in AudioLM, che quindi prevede ciò che viene dopo. Il processo è simile al modo in cui i modelli linguistici come GPT-3 prevedono quali frasi e parole in genere si susseguono.

Le clip audio rilasciate dal team suonano piuttosto naturali. In particolare, la musica per pianoforte generata utilizzando AudioLM suona più fluida della musica per pianoforte generata utilizzando le tecniche di intelligenza artificiale esistenti, che tende a sembrare caotica.

AudioLM - Google AI Blog post

Video Google AudioLM

Indice degli argomenti:

AudioLM: non solo musica, anche discorsi

Roger Dannenberg, che studia la musica generata al computer presso la Carnegie Mellon University, afferma che AudioLM ha già una qualità del suono molto migliore rispetto ai precedenti programmi di generazione musicale. In particolare, dice, AudioLM è sorprendentemente bravo a ricreare alcuni dei modelli ripetitivi inerenti alla musica creata dall’uomo. Per generare musica realistica per pianoforte, AudioLM deve catturare molte delle sottili vibrazioni contenute in ogni nota quando vengono colpiti i tasti del pianoforte. La musica deve anche sostenere i suoi ritmi e le sue armonie per un periodo di tempo.

AudioLM non si limita solo alla musica. Poiché è stato addestrato su una libreria di registrazioni di esseri umani che pronunciano frasi, il sistema può anche generare un discorso che continua con l’accento e la cadenza dell’oratore originale, anche se a questo punto quelle frasi possono ancora sembrare senza alcun senso. AudioLM è addestrato per imparare quali tipi di frammenti di suono si verificano frequentemente insieme e utilizza il processo al contrario per produrre frasi. Ha anche il vantaggio di poter imparare le pause e le esclamazioni che sono inerenti alle lingue parlate ma non facilmente traducibili in testo.

Rupal Patel, che studia l’informazione e la scienza del linguaggio presso la Northeastern University, afferma che il lavoro precedente che utilizza l’intelligenza artificiale per generare audio potrebbe catturare quelle sfumature solo se fossero esplicitamente annotate nei dati di addestramento. Al contrario, AudioLM apprende automaticamente queste caratteristiche dai dati di input, il che aumenta l’effetto realistico.

Con l’AI musica per creare colonne sonore per video

La musica generata dall’intelligenza artificiale potrebbe essere utilizzata per fornire colonne sonore di sottofondo dal suono più naturale per video e presentazioni. La tecnologia di generazione vocale che suona più naturale potrebbe aiutare a migliorare gli strumenti di accessibilità a Internet e i bot che funzionano in contesti sanitari, afferma Patel.

Tuttavia, le implicazioni etiche della tecnologia devono essere considerate, afferma Patel. In particolare, è importante determinare se i musicisti che producono le clip utilizzate come dati di addestramento otterranno l’attribuzione o le royalty dal prodotto finale, un problema che è emerso con le AI da testo a immagine. Il discorso generato dall’intelligenza artificiale che è indistinguibile dalla cosa reale potrebbe anche diventare così convincente da consentire la diffusione della disinformazione più facilmente.

Nel documento, i ricercatori scrivono che stanno già considerando e lavorando per mitigare questi problemi, ad esempio sviluppando tecniche per distinguere i suoni naturali dai suoni prodotti utilizzando AudioLM. Patel ha anche suggerito di includere filigrane audio nei prodotti generati dall’intelligenza artificiale per renderli più facili da distinguere dall’audio naturale.

Da Google una AI che genera musica e parlato a partire da un breve frammento

Video Google AudioLM

AudioLM: non solo musica, anche discorsi

Con l’AI musica per creare colonne sonore per video

Articoli correlati

ChatGPT: come funziona il chatbot di OpenAI

Codice Rss

Codice Rss