Un team di ricercatori del MIT Csail e di Google sta ampliando le capacità di DALL-E 3 di OpenAI applicandolo al popolare modello open source testo-immagine Stable Diffusion.
Al momento del lancio, DALL-E 3 di OpenAI ha stupito gli utenti per la sua capacità di generare immagini altamente dettagliate rispetto alle versioni precedenti. OpenAI ha dichiarato che il miglioramento della capacità del modello è dovuto all’utilizzo di immagini sintetiche per addestrare il modello. Insomma, siamo di fronte a un caso in cui l’AI si alimenta con l’AI…
Il segreto sta nel metodo per le immagini StableRep
In un documento appena pubblicato, i ricercatori hanno descritto un nuovo approccio all’utilizzo di immagini generate dall’intelligenza artificiale per addestrare i modelli di generazione delle immagini che chiamano StableRep. Utilizza milioni di immagini sintetiche etichettate per generare immagini di alta qualità.
Secondo i ricercatori, StableRep è un “metodo di apprendimento contrastivo multipositivo” in cui più immagini generate dallo stesso testo vengono trattate come positive l’una per l’altra, migliorando così il processo di apprendimento. Ciò significa che un modello di generazione di immagini AI visualizzerebbe diverse varianti, ad esempio di un paesaggio, e le incrocerebbe con tutte le descrizioni relative a quel paesaggio per riconoscere le sfumature basate su quelle immagini. Le applicherebbe poi nell’output finale. Questo è ciò che crea un’immagine altamente dettagliata.
Il nuovo metodo supera i rivali
I ricercatori del MIT e di Google hanno applicato StableRep a Stable Diffusion per renderlo più performante di modelli di generazione di immagini rivali come SimCLR e CLIP, che sono stati addestrati con le stesse richieste di testo e le corrispondenti immagini reali.
StableRep ha ottenuto un’accuratezza lineare del 76,7% nella classificazione ImageNet con un modello Vision Transformer. Aggiungendo la supervisione linguistica, i ricercatori hanno scoperto che StableRep, addestrato su 20 milioni di immagini sintetiche, ha superato CLIP, addestrato su 50 milioni di immagini reali.
Lijie Fan, dottorando al MIT e ricercatore principale, ha affermato che la loro tecnica è superiore perché “non si limita a fornire dati”. “Quando più immagini, tutte generate dallo stesso testo, vengono trattate come rappresentazioni della stessa cosa sottostante, il modello approfondisce i concetti che stanno dietro alle immagini, cioè l’oggetto, non solo i suoi pixel”.
Tuttavia, StableRep ha i suoi difetti. Ad esempio, è lento a generare immagini. Inoltre, si confonde con le discrepanze semantiche tra le richieste di testo e le immagini risultanti.
Anche il modello di base di StableRep, Stable Diffusion, ha dovuto affrontare un ciclo iniziale di addestramento su dati reali, quindi l’utilizzo di StableRep per creare immagini richiederà più tempo e sarà probabilmente più costoso.
Come accedere a StableRep
StableRep è accessibile tramite GitHub.
È disponibile per uso commerciale. StableRep è sotto licenza Apache2.0, il che significa che è possibile utilizzarlo e produrre opere derivate.