O penAI ha annunciato l’inizio della fase di rollout della funzione di generazione di immagini in ChatGPT per gli utenti di ChatGPT Plus, Pro, Team e Free. La funzione di generazione immagini sarà disponibile direttamente all’interno dell’esperienza di chat come strumento predefinito nel modello 4o (4o image generation) e sarà disponibile anche in Sora. I piani ChatGPT Enterprise ed Edu avranno accesso a breve.
Indice degli argomenti:
Cosa può fare il generatore di immagini di ChatGPT
ChatGPT genera immagini di alta qualità in risposta a prompt, conversazioni e file caricati. Supporta sia la creazione di nuove immagini che la trasformazione di quelle esistenti, con miglioramenti nel rendering del testo, nel rispetto dei prompt e nella comprensione contestuale.
Il nuovo modello fa progressi sui problemi tecnici che hanno afflitto i generatori di immagini AI per anni. Mentre la maggior parte è stata brava a creare immagini fantastiche o deepfake realistici, sono stati pessimi in quello che viene chiamato binding, che si riferisce alla capacità di identificare correttamente determinati oggetti e metterli al loro posto (come un cartello che dice “hot dog” posizionato correttamente sopra un carrello del cibo, non da qualche altra parte nell’immagine).
OpenAI ha ampliato le opzioni di generazione delle immagini semplificando il processo, il tutto in un unico modello. GPT-4o utilizza un approccio autoregressivo e la sua conoscenza del mondo reale per fornire risultati di qualità professionale in modo più intuitivo e utile.
- Immagini che traggono beneficio da una conversazione e dal contesto del mondo reale: ad esempio una visualizzazione di un’epoca storica dell’arte discussa precedentemente nella conversazione.
- Generazione di immagini per lavoro: ad esempio, diagrammi, infografiche, grafiche promozionali per i social media con codici esadecimali, loghi, istruzioni complesse.
- Immagini incentrate principalmente sul testo: ad esempio, poster di istruzioni, visualizzazione di concetti per l’apprendimento, wordmark, biglietti da visita.
- Output per uso esterno: ad esempio, foto personalizzate con sfondo trasparente per l’utilizzo in una presentazione.
- Immagini di alta qualità e fotorealistiche: forte capacità di fotorealismo, compresi la luce, l’ombra e l’accuratezza delle texture. Ad esempio, stock di foto.
- Possibilità di caricare un’immagine come punto di partenza: ad esempio, un dipinto personalizzato del proprio cane, la modifica del proprio ritratto, ispirazioni per l’arredamento d’interni basate su un’immagine del proprio soggiorno.
Esempi dal mondo reale
Una lavagna di vetro sul futuro della multimodalità

Un’ampia immagine scattata con un telefono di una lavagna di vetro, in una stanza che si affaccia sul Bay Bridge. Il campo visivo mostra una donna che scrive, indossando una t-shirt con un grande logo OpenAI. La scrittura sembra naturale e si vede il riflesso del fotografo nel vetro.

Selfie del fotografo, mentre lei si volta per dargli il cinque.
L’immagine come strumento di pensiero e il potere del contesto
Dalle pitture rupestri agli infografici, l’essere umano ha sempre usato le immagini per comunicare, persuadere, analizzare. I modelli generativi odierni sanno creare scenari spettacolari, ma spesso falliscono nel produrre immagini “da lavoro”: loghi, schemi, menu, inviti. GPT‑4o colma questa lacuna, eccellendo nel rendere testi con precisione e seguire i prompt con rigore.
Una delle capacità più potenti di GPT‑4o è la comprensione nativa del contesto della chat, inclusi testi, immagini caricate o trasformate, elementi stilistici. Questo lo rende uno strumento straordinario per chi deve comunicare idee complesse attraverso elementi visivi coerenti.

Poesia su cartoncino di lusso con texture a guscio d’uovo

Comprensione visiva avanzata e fedeltà del testo
Il modello è stato addestrato sulla distribuzione congiunta di immagini e testi online. Un training aggressivo a posteriori ha permesso di raggiungere una sorprendente fluidità visiva, utile anche in ambiti didattici: esperimenti scientifici, mappe, poster educativi, diagrammi tecnici.
La capacità di GPT‑4o di rendere simboli e parole all’interno di un’immagine lo trasforma in uno strumento di comunicazione visiva. Può generare menù di ristoranti tradizionali con illustrazioni eleganti, inviti di nozze concettuali, poesie visive su carta di pregio, fino a creare segnaletica urbana surreale ma plausibile, con streghe e tappeti volanti.
È “un nuovo strumento per la comunicazione”, afferma Gabe Goh, il progettista principale del generatore di OpenAI. Kenji Hata, un ricercatore di OpenAI che ha anche lavorato allo strumento, ha un’altra opinione: “Penso che l’idea generale sia che ci stiamo allontanando da, tipo, la bella arte”. Può ancora farlo, chiarisce, ma farà anche cose più utili. “Puoi effettivamente far funzionare le immagini per te”, dice, “e non solo guardarle”.
È un chiaro segno che OpenAI sta posizionando lo strumento per essere utilizzato di più da professionisti creativi: pensa a grafici, agenzie pubblicitarie, social media manager o illustratori. Ma nell’entrare in questo dominio, OpenAI ha due percorsi, entrambi difficili. Uno, può prendere di mira i professionisti qualificati che hanno utilizzato a lungo programmi come Adobe Photoshop, che sta anche investendo molto in strumenti di intelligenza artificiale in grado di riempire le immagini con intelligenza artificiale generativa.
La seconda opzione è quella di rivolgersi ai designer occasionali che si sono riversati su strumenti come Canva. Questo è un pubblico che potrebbe non aver mai avuto bisogno di software tecnicamente impegnativi come Photoshop, ma utilizzerebbe strumenti di progettazione più occasionali per creare immagini.
Per avere successo in questo caso, OpenAI dovrebbe allontanare le persone dalle piattaforme create per la progettazione nella speranza che la velocità e la qualità del suo generatore di immagini rendano il passaggio conveniente.
È possibile che lo strumento venga semplicemente utilizzato come molti generatori di immagini ora: per creare rapidamente immagini “abbastanza buone” da accompagnare ai post sui social media.
Generazione iterativa: l’arte della co-creazione
Essendo nativamente integrata, la generazione d’immagini in GPT‑4o consente modifiche attraverso conversazioni naturali. Ad esempio, è possibile raffinare l’aspetto di un personaggio di videogame mantenendone la coerenza visiva mentre si sperimenta con stili, colori, accessori.
Complessità e controllo: fino a 20 oggetti coerenti
GPT‑4o riesce a gestire 10-20 oggetti distinti in un’unica immagine, legandoli in modo coerente alle loro proprietà e relazioni. Questo si traduce in infografiche ordinate, scene complesse con elementi multipli, pubblicità, giochi di parole visivi e molto altro.
Esempio
Creare un’immagine fotorealistica di due streghe ventenni che leggono un cartello stradale.
Contesto:
una strada cittadina in una via a caso di Williamsburg, NY, con un palo interamente coperto da numerosi e dettagliati cartelli stradali (ad es, orari di spazzamento delle strade, permessi di parcheggio richiesti, classificazioni dei veicoli, regole di rimozione), tra cui alcuni ridicoli cartelli al centro: (parafrasandolo per rendere questi cartelli stradali legittimi) “Parcheggio della scopa per le streghe non consentito nella zona C” e “Solo carico e scarico di tappeti magici (limite di 15 minuti)” e “Parcheggio delle renne solo con permesso (24-25 dicembre). Il cartello si trova sulla destra di una strada. Non ripetere i cartelli. I cartelli devono essere realistici.
Personaggi:
una strega ha in mano una scopa e l’altra un tappeto magico arrotolato. Sono in primo piano, con la schiena leggermente girata verso la telecamera e la testa leggermente inclinata mentre scrutano i cartelli.
Composizione dallo sfondo al primo piano:
strade + auto parcheggiate + edifici -> cartello stradale -> streghe. I personaggi devono essere i più vicini alla macchina fotografica che scatta l’inquadratura.

Precisione e contesto: immagini da codice e conoscenza del mondo
Il modello può generare visualizzazioni a partire da codice (come nel caso di banner 3D con Three.js), infografiche meteo, guide alla fauna marina o alla preparazione del matcha, integrando conoscenze testuali e visuali.
Stili e fotorealismo
L’addestramento su una vasta gamma di stili visivi consente al modello di produrre immagini fotorealistiche, vintage, astratte, editoriali, emozionali. Tra gli esempi: Marx paparazzato con borse griffate, un gatto che si riflette come una tigre, mercatini estivi del 2006, inviti visivi generati interamente da GPT.

Una candid camera in stile paparazzi di Karl Marx che cammina frettolosamente nel parcheggio del Mall of America, guardandosi alle spalle con un’espressione stupita nel tentativo di evitare di essere fotografato. Stringe diverse borse della spesa lucide piene di beni di lusso. Il suo cappotto svolazza dietro di lui nel vento e una delle borse oscilla come se fosse a metà della sua corsa. Sfondo sfocato con auto e un ingresso luminoso del centro commerciale per enfatizzare il movimento. Il bagliore del flash della fotocamera sovraespone parzialmente l’immagine, conferendole un aspetto caotico e da tabloid.

Il cavallo si trova verso l’orizzonte, dove l’oceano incontra il cielo. Utilizzare la regola dei terzi per posizionare il cavallo. La dimensione del cavallo è pari all’1% dell’intera immagine perché la fotocamera è molto lontana dal soggetto. La vista della fotocamera è molto vicina al terreno/oceano. Il cavallo galoppa dove l’oceano incontra il cielo.
Limiti noti
Il modello non è perfetto. Può tagliare immagini lunghe, “allucinare” elementi se il prompt è povero, avere difficoltà con molteplici concetti (es. la tavola periodica), rendere con scarsa precisione testi in lingue non latine o modificare aree non richieste durante un editing.

GPT-4o può occasionalmente ritagliare le immagini più lunghe, come i poster, soprattutto in basso.
Sicurezza e trasparenza
Tutte le immagini generate contengono metadati C2PA per garantirne la tracciabilità. Sono attivi blocchi per contenuti violenti, sessualmente espliciti o che coinvolgano persone reali in contesti non appropriati
Analogamente al lavoro di allineamento deliberativo, è stato addestrato un LLM di ragionamento per lavorare direttamente dalle specifiche di sicurezza scritte e interpretabili dall’uomo. Questo LLM di ragionamento è stato usato durante lo sviluppo per aiutare a identificare e risolvere le ambiguità nelle politiche. Insieme ai progressi multimodali e alle tecniche di sicurezza esistenti sviluppate per ChatGPT e Sora, questo permette di moderare sia il testo in ingresso che le immagini in uscita rispetto alle politiche.
Disponibilità e accesso
La generazione d’immagini con GPT‑4o è disponibile per gli utenti Free, Plus, Pro e Team. A breve arriverà anche per gli utenti Enterprise ed Education. Sarà integrata anche in Sora e presto disponibile via API.
Basta descrivere l’immagine desiderata per ottenerla. È possibile specificare rapporti d’aspetto, colori HEX, trasparenze. Le immagini richiedono più tempo per essere generate, ma i risultati parlano da soli.
GPT‑4o non si limita a generare immagini. Le comprende, le costruisce, le collega al linguaggio. E, in questo processo, ridefinisce cosa significa “immaginare”. Ora i generatori di immagini concorrenti dovranno eguagliare questi risultati per tenere il passo.
Per ulteriori informazioni:
Addendum sulla generazione di immagini della scheda di sistema GPT-4o
OpenAI 4o image generation: la model card, come funziona – AI4Business