aI CREATIVA

Midjourney AI: cos’è e come l’arte digitale espande la creatività

Disponibile al pubblico dall’estate del 2022, attirando da subito grande attenzione da parte degli utenti, ecco una delle principali AI generative di immagini, facente parte del terzetto che ha dato il via all’hype, insieme a DALL-E e Stable Diffusion. Ecco quali sono le principali caratteristiche e come può essere utilizzata

Pubblicato il 25 lug 2024

Paolo Dalprato

Midjourney è un service basato su un’intelligenza artificiale generativa, produce immagini partendo da un input inserito da un utente. È una delle principali AI generative di immagini, fa parte del terzetto che ha dato il via all’hype, insieme a DALL-E e Stable Diffusion, diventando disponibile al pubblico nell’estate del 2022 e attirando da subito grande attenzione da parte degli utenti. Per i curiosi di cose storiche il link al tweet del 13 luglio 2022 con cui si annunciava l’apertura della versione beta.

Le prime immagini, viste oggi sembrano poca cosa. Quella raffigurata sopra, in evidenza, è la prima immagine generata con Midjourney da me, con la versione 3 il 20 ottobre 2022. Con un lato di 256 x 256 pixel, rappresenta un anziano superman costretto a prendere un ascensore perché non più in grado di volare.

Indice degli argomenti:

Midjourney, la storia

Midjourney ha lavorato da subito per sviluppare il prodotto, con rilasci di un paio di major release all’anno, oltre eventualmente ad altre release minori.

Già qualche settimana dopo la mia prima generazione potevo produrre questa sintografia:

Era il 5 novembre 2022 e avevo potuto usare la Versione 4, rilasciata giusto il giorno precedente. Le dimensioni qui arrivano a 512 x 512 pixel; si può vedere anche una miglior definizione generale.

Per completare il viaggio nelle versioni di Midjourney, questo martin pescatore è del 28 febbraio 2024, realizzato con la Versione 6, l’attuale; misura 1322 x 896 pixel.

Cos’è Midjourney

Come si è detto Midjourney è una intelligenza artificiale generativa di immagini, cioè un sistema che adeguatamente addestrato è in grado, dato un input, di produrre in output un’immagine. Più sopra ho parlato di versioni, cosa si intende con Versione X? Si tratta del modello che si sta utilizzando, ed è il file che si ottiene alla fine dell’addestramento dell’AI e che contiene tutte le informazioni necessarie per generare le immagini richieste.

Midjourney è una AI proprietaria, non è possibile scaricare il modello come non è possibile ispezionare il codice software che serve per gestirlo. In questo si contrappone al progetto Open source di Stable Diffusion. Per fare un esempio con la Versione 6, quella più evoluta attualmente utilizzabile, non sappiamo con che dataset sia stata addestrata e, ovviamente, non possiamo studiare direttamente modello e software relativo. Possiamo solo valutare le modalità d’uso e i risultati che si possono ottenere.

Può essere curioso notare come delle tre del terzetto iniziale – oltre a Midjourney le già citate DALL-E e Stable Diffusion – nel momento in cui si sono presentate, ognuna aveva un suo modo per essere utilizzata, mi riferisco alle interfacce.

DALL-E, in un certo senso la più standard, era utilizzabile tramite un browser web. Stable Diffusion si poteva utilizzare in locale tramite interfacce costruite e rilasciate dalle community di sviluppatori aggregate attorno al progetto. Midjourney, invece, doveva essere utilizzata su Discord, un’app di messaggistica nata per il mondo di gamer.

Nonostante le diversità, tutte queste AI capaci di generare immagini (e tutte le altre che si sono presentate successivamente) sono l’unione dei due elementi di cui ho parlato sopra: un file di grandi dimensioni che in qualche modo contiene le informazioni necessarie per generare immagini gestito dal software costruito attorno.

Caratteristiche di Midjourney

Entriamo nel mondo attuale di Midjourney. Preciso attuale perché rispetto ai primi tempi molte cose sono cambiate, una caratteristica sia generale del mondo delle AI sia in particolare di questa app. Lo è così tanto che Midjourney ha istituito un’abitudine ricorrente: ogni mercoledì pubblica le cosiddette “Office Hours”, in cui si raccontano sia lo stato dell’arte dello sviluppo, sia gli scenari futuri.

Ecco le caratteristiche più importanti:

oltre a Discord è stata rilasciata un’interfaccia web; non sono mutuamente alternative ma ognuna ha caratteristiche e modi d’uso specifici;
tutte le immagini sono visibili in un’unica timeline, tranne quelle nascoste;
è possibile ordinare le immagini generate;
è possibile generare immagini di tutti gli stili, dal fotorealismo alle grafiche astratte, passando per i fumetti manga e tanto altro;
il prompt può essere costruito utilizzando anche parametri e immagini;
è possibile definire stili personali, sia in modo automatico (Midjourney “impara” cosa ci piace) sia definendo noi stessi gli stili;
è possibile costruire delle proprie librerie di stili;
nata solo come AI text-to-image (cioè capace di generare un’immagine partendo da una richiesta testuale) ora oltre al testo accetta in input anche immagini, anche combinate con del testo.

Questo parziale elenco di feature permette di iniziare a capire le possibilità che offre Midjourney.

Ad esempio, quella di definire degli stili è elemento fondamentale sia per chi usa Midjourney per scopi artistici, sia per chi ha necessità di costruire set di immagini con una loro coerenza stilistica. Pensiamo a un’agenzia di comunicazione, oppure a un autore di comics. Entrambi hanno una necessità che si chiama consistenza (a volte viene anche indicata come coerenza); solo, ognuno declinata a modo suo.

L’agenzia ha bisogno di avere immagini con uno stile grafico coerente, l’autore di comics deve trovare lo stesso personaggio nelle varie situazioni. Ad entrambe le necessità Midjourney può dare una risposta, sia pure con tecniche diverse, tanto che entrambi i casi sono già diventati reali.

E sempre per entrambi, ancora per quanto riguarda gli stili, Midjourney è un ottimo alleato per lo sviluppo e l’uso di un proprio stile, riconoscibile e usabile nel susseguirsi delle immagini prodotte.

Tutte le varie caratteristiche fanno di MJ un prodotto decisamente professionale ma con un grado di flessibilità così elevato da poter essere utilizzabile da chiunque. Certo occorre imparare a usarlo, come ogni software complesso ha diverse opzioni, anche se in realtà non è necessario conoscerle tutte per un uso base, facendo attenzione che il termine “uso base” non vuole dire immagini di qualità inferiore. La possibilità di usare due interfacce molto diverse come Discord e quella della versione web facilita l’utente che per mancanza di tempo può scegliere quella che più gli aggrada.

Come si lavora con Midjourney

Partiamo da una considerazione: al momento Midjourney è l’AI con l’estetica migliore, parlo delle immagini prodotte ovviamente e non dell’interfaccia. Midjourney è stata sviluppata per dare sempre – o quasi – immagini belle. E ha una cosa che possiamo anche pensare sia una sua forma di creatività, come tutte le AI ma in questo caso “specializzata” nel visual.

Unendo le due cose, è facile provare a immaginarla come un compagno di lavoro, non solo per la produzione dell’immagine finale ma anche nella fase di brainstorming. Per sfruttarla appieno occorre pensarsi nella situazione di un lavoro in coppia, comportarsi come parte di un team di creativi, insomma. Per cui non solo guidare ma anche farsi guidare dalle suggestioni di questo insolito partner.

I due, la persona e la macchina, non sono uguali, i ruoli sono un po’ come quello del regista (la persona) e l’attore geniale ma bizzoso e anarchico; al regista sta capire quanto portarlo dentro paletti stretti e quanto allentare la briglia. E questo porta, uscendo dalla metafora cinematografica, a un altro aspetto molto specifico del lavorare con le AI, cioè la capacità di selezionare. Una sessione di lavoro porta infatti ad avere parecchio materiale, con le AI generative di immagini non è strano avere alla fine anche centinaia di immagini prodotte, diventa obbligatorio selezionare. Aggiungo un aspetto: selezionare non basta se non si sa anche analizzare. Per cui quando si visualizzano le quattro immagini che Midjourney ci propone, è meglio analizzarle subito e decidere quali scartare. Questo ci salverà da una timeline lunghissima con la maggior parte delle immagini non interessanti per noi.

Altro accorgimento, collegato con il precedente: organizzare le immagini che si vogliono tenere. La versione Discord e quella web hanno metodi diversi, comunque entrambe permettono di raccogliere le immagini secondo criteri nostri, anche se un po’ limitati, sta a noi decidere quanto complessa dovrà essere la struttura.

Chi sono gli utenti di Midjourney

Per capire a chi si rivolge inizio a dire a chi non si rivolge: a chi ha bisogno di creare immagini di prodotti specifici con un fortissimo controllo dell’immagine, per ora questi utenti devono rivolgersi a Stable Diffusion. Escludendo questo tipo di richieste, tutti gli altri utilizzatori possono usare Midjourney con molto profitto. È progettato per fare immagini belle, anche con input casuali.

Come esempio l’immagine sotto (1024 x 1024 pixel), l’ho ottenuta con questo prompt: hh yo8t ò- ot r r5i àp0 9 70è

Da chi ha bisogno velocemente di un’immagine senza che questa sia centrale in qualche ragionamento, una decorazione diciamo, va bene il “buona la prima”, a chi fa ricerca nel campo del visual, con un flusso di lavoro complesso e ogni sessione diventa la ricerca dell’immagine perfetta o quasi. Midjourney con le sue possibilità e caratteristiche può soddisfare una vasta platea di utilizzatori, anche particolarmente esigenti.

Le licenze

Un argomento importante è quello delle licenze, che determinano cosa si può fare con quello che si ottiene. Nel caso di Midjourney e di tutti i vari service online queste informazioni si trovano nei cosiddetti TOS, acronimo di Term of Service, tradotto letteralmente in italiano con Termini di Servizio.

Nel caso di Midjourney si trovano a questo link.

Per avere la risposta alla domanda fondamentale (“cosa ci posso fare?”) bisogna andare al capitolo 4 intitolato Content Rights, che inizia con:

You own all Assets You create with the Services to the fullest extent possible under applicable law

che si può tradurre con:

Tu sei proprietario di tutti i beni che hai creato con i Servizi nella misura massima possibile ai sensi della legge applicabile.

Subito dopo iniziano una serie di precisazioni che non vanno a intaccare il senso: posso farci quello che voglio delle immagini che ho generato usando questo servizio con l’unica accortezza, detta un poco fra le righe, di non ottenere volontariamente o involontariamente qualcosa di troppo simile a opere protette da copyright/diritto d’autore.

Ma i TOS non si fermano qui, il successivo paragrafo riguarda i diritti che noi utenti concediamo a Midjourney, che si possono riassumere in “tutti”. E non solo sulle immagini che otteniamo ma anche su quelle che carichiamo come reference e pure sui prompt che usiamo. Per essere chiari, Midjourney non vende le nostre immagini, questi diritti servono per poter eventualmente usare questo materiale per addestramento dei loro modelli.

L’ultimo paragrafo è molto interessante, inizia con:

Please note: Midjourney is an open community which allows others to use and remix Your images and prompts whenever they are posted in a public setting. By default, Your images are publically viewable and remixable. As described below, You grant Midjourney a license to allow this.

Che si può tradurre con:

Nota bene: Midjourney è una comunità aperta che consente ad altri di utilizzare e remixare le immagini e i suggerimenti dell’utente ogni volta che vengono pubblicati in un ambiente pubblico. Per impostazione predefinita, le immagini dell’Utente sono visibili e remixabili pubblicamente. Come descritto di seguito, l’Utente concede a Midjourney una licenza per consentire ciò.

Cioè, non solo è lecito usare il lavoro di altri (e agli altri usare il nostro), ma questo è in qualche modo suggerito, visto che l’ambiente è appositamente costruito comune e aperto. Mi sembra qualcosa capace di mettere in crisi i difensori del copyright a tutti i costi! Visto che siamo autorizzati, un ottimo modo, uno dei migliori se non il migliore, è proprio guardare cosa fanno gli altri, provando a modificare in modo creativo i loro lavori.

Questa del modificare è importante, l’immagine che generiamo partendo da lavori di altri diventa nostra solo se apportiamo modifiche, il temine usato è remix. Come esempio di modifica non creativa viene fatto quello dell’ingrandimento, se prendo l’immagine di un’altra persona e mi limito a ingrandirla, l’immagine che ottengo non mi appartiene ma resta dell’autore dell’immagine originale.

Se per vari motivi non si vuole rendere comune il proprio lavoro, è possibile usare la funzione Stealth degli abbonamenti “Pro” o “Mega”, facendo attenzione a come viene attivata.

I profili di Midjourney

L’uso di Midjourney è a pagamento: si può fare un abbonamento mese per mese oppure un abbonamento annuale con uno sconto del 20% rispetto al mensile. Per chi vive in Italia, ai costi indicati occorre aggiungere l’Iva.

Di fatto ogni abbonamento corrisponde alla possibilità di utilizzare i server per un certo tempo-macchina; insomma acquisto del tempo di uso delle GPU (le schede grafiche che fanno i calcoli), con la nota che il tempo non utilizzato in un mese non passa al successivo ma scade allo scadere del mese.

Facendo riferimento per comodità solo agli abbonamenti annuali, i profili sono quattro (fra parentesi il tempo macchina corrispondente):

Basic a 96 dollari (3,3 hr/mese)
Standard a 288 dollari (15 hr/mese)
Pro a 576 dollari (30 hr/mese)
Mega a 1.152 dollari (60 hr/mese).

Dal Pro in su è possibile utilizzare un numero indefinito di richieste usando il cosiddetto relaxed GPU time, cioè le richieste vengono lavorate quando il carico generale è relativamente basso.

La tabella completa si trova qui.

Il prompt

Il prompt è la richiesta che facciamo per ottenere l’immagine che desideriamo e con Midjourney deve essere necessariamente in inglese. Agli inizi di Midjourney il prompt era solo testuale; ora non solo è possibile aggiungere delle immagini di riferimento in modi diversi, è anche possibile usare solo immagini. Il prompt è qualcosa di complesso, anche nella sola forma testuale comprende una serie di parametri che servono a definire il risultato in maniera importante.

Semplificando questa potrebbe essere la struttura (per comodità la scriviamo in italiano)

<Soggetto> foto a colori di un uomo / un vaso

<azione> che corre / appoggiato su un tavolo

<setting> in una strada di notte / vicino alla finestra di un soggiorno

<dettagli> con un grandangolo / con un teleobbiettivo

<parametri> –parametro1 –parametro2 (i parametri, per ora una ventina, sono identificati dai due segni meno immediatamente prima del nome del parametro)

I competitor

Il discorso su chi siano i competitor di Midjourney potrebbe sembrare strano; secondo me, l’unico vero competitor come qualità delle immagini e possibilità offerte è Stable Diffusion, con la nota che in realtà non sono competitor ma, per ora, complementari. Per ora perché la mia impressione è che lentamente Midjourney stia cercando di arrivare ad avere feature che la renderanno simile a Stable Diffusion, entrando così davvero in competizione.

Conclusioni

Per concludere, ecco l’immagine del vecchio Superman nell’ascensore, rifatta oggi per mostrare le differenze. Misura 1024 x 1024 pixel e ho usato la Versione 6.

Il prompt usato, davvero minimale, è stato: a old superman in an elevator.

Nella mia richiesta non c’è nulla riguardo alla parte estetica; quando ho chiesto l’immagine la prima volta ignoravo completamente i meccanismi, ora che ne sono consapevole so cosa posso demandare e cosa posso domandare. Questo fa capire bene credo la potenza di questo strumento, a cui posso demandare la cura della parte estetica quando non serve che io la controlli, abbastanza certo della buona qualità del risultato.

Questo non è un rinunciare a un ruolo di controllore – il regista di cui ho detto prima – ma è usare uno strumento consapevolmente. Quando mi serve un’immagine per un articolo mi concentro sul senso che deve esprimere, magari aggiungendo una minima parte sull’estetica e arrivando in una o due generazioni a qualcosa che posso usare (ossia in pochissimo tempo).

Quando devo fare un lavoro che richiede un controllo dell’immagine entro in una modalità interattiva in cui esercito in pieno il mio ruolo di controllore del flusso creativo in una coppia creativa. Ciò richiede certo più tempo, ma sempre molto meno di quello che avrebbe richiesto lo stesso lavoro prima delle AI.

@RIPRODUZIONE RISERVATA