Amazon ha introdotto Amazon Nova, una nuova generazione di modelli di base che promettono di trasformare il panorama dell’intelligenza artificiale. Questi modelli sono progettati per elaborare testo, immagini e video, consentendo ai clienti di sfruttare applicazioni di AI generativa per comprendere e generare contenuti multimediali complessi.
Amazon Nova, un nuovo capitolo nell’AI
Rohit Prasad, SVP di Amazon Artificial General Intelligence, ha dichiarato che i nuovi modelli Nova sono progettati per affrontare le sfide incontrate dai costruttori di applicazioni, sia interni che esterni. Questi modelli offrono un’intelligenza convincente e capacità di generazione di contenuti, migliorando la latenza, l’efficienza dei costi e la personalizzazione.
Dai chip personalizzati Inferentia e Trainium, all’offerta dei migliori modelli di base su Amazon Bedrock, fino alle esperienze basate sull’AI come Rufus e Alexa, Amazon fornisce diverse soluzioni di AI generativa (Gen AI).
Amazon Nova è una nuova generazione di modelli di base (foundation model). Grazie alla capacità di elaborare testo, immagini e video come prompt, si possono utilizzare le applicazioni di AI generativa alimentate da Amazon Nova per comprendere video, grafici e documenti o generare video e altri contenuti multimediali.
“All’interno di Amazon abbiamo circa mille applicazioni di AI generativa in funzione e abbiamo avuto una visione d’insieme di ciò che i costruttori di applicazioni stanno ancora affrontando”, dichiarato Prasad. “I nostri nuovi modelli Amazon Nova sono destinati ad aiutare a risolvere queste sfide per i costruttori interni ed esterni, e forniscono un’intelligenza e una generazione di contenuti convincenti, offrendo al contempo progressi significativi in termini di latenza, efficienza dei costi, personalizzazione, fondamento delle informazioni e capacità agenziali”.
I nuovi modelli Amazon Nova
I nuovi modelli Amazon Nova disponibili in Amazon Bedrock includono:
- Amazon Nova Micro: modello di solo testo che offre risposte a bassissima latenza e a costi molto contenuti.
- Amazon Nova Lite: modello multimodale a bassissimo costo, velocissimo nell’elaborazione di immagini, video e testi.
- Amazon Nova Pro: modello multimodale altamente capace con la migliore combinazione di precisione, velocità e costo per un’ampia gamma di attività.
- Amazon Nova Premier: modello multimodale più capace di Amazon per attività di ragionamento complesse e per l’uso come migliore insegnante per la distillazione di modelli personalizzati (disponibile nel primo trimestre del 2025).
- Amazon Nova Canvas: modello di generazione di immagini all’avanguardia.
- Amazon Nova Reel: modello di generazione video all’avanguardia.
Come i modelli Amazon Nova saranno utili alle aziende
Tutti i modelli Amazon Nova sono stati progettati per essere facili da usare con i sistemi e i dati del cliente. Supportano un’ampia gamma di attività in 200 lingue e con diverse modalità. Amazon Nova Micro, Nova Lite e Nova Pro costano almeno il 75% in meno rispetto ai modelli più performanti delle rispettive classi di intelligenza in Amazon Bedrock. Sono anche i modelli più veloci nelle rispettive classi di intelligenza in Amazon Bedrock.
I modelli sono integrati in Amazon Bedrock, un servizio completamente gestito che mette a disposizione foundation model ad alte prestazioni di aziende leader nel settore dell’intelligenza artificiale e di Amazon attraverso un’unica API. Utilizzando Amazon Bedrock, i clienti possono facilmente sperimentare e valutare i modelli Nova, così come altri foundation model, per determinare il modello migliore per un’applicazione.
Messa a punto personalizzata
I modelli supportano anche la messa a punto personalizzata, che consente ai clienti di indirizzare i modelli verso esempi nei loro dati proprietari che sono stati etichettati per aumentare la precisione. Il modello Amazon Nova apprende ciò che è più importante per il cliente dai suoi dati (compresi testi, immagini e video), e poi Amazon Bedrock addestra un modello privato di fine-tuning che fornirà risposte su misura.
Oltre a supportare la messa a punto, i modelli supportano anche la distillazione, che consente di trasferire conoscenze specifiche da un “modello insegnante” più grande e altamente capace a un modello più piccolo ed efficiente, altamente accurato, ma anche più veloce ed economico da eseguire.
I modelli Nova sono integrati con le basi di conoscenza Amazon Bedrock ed eccellono nella Retrieval Augmented Generation (RAG), che consente ai clienti di garantire la massima precisione basando le risposte sui dati dell’organizzazione.
I modelli Nova sono stati ottimizzati per renderli facili da usare ed efficaci nelle applicazioni agenziali che richiedono l’interazione con i sistemi e i dati proprietari di un’organizzazione attraverso molteplici API per eseguire attività in più fasi.
Generazione di contenuti creativi
Grazie alla qualità dell’output, alla piattaforma API intuitiva e alle opportunità di personalizzazione avanzate, i modelli di generazione creativa di Amazon Nova, Nova Canvas e Nova Reel, stanno aiutando Amazon Ads a rimuovere le barriere per venditori e inserzionisti, portando a nuovi livelli di creatività e innovazione, come l’utilizzo della pubblicità video per la prima volta, la creazione di campagne display e video per un maggior numero di prodotti del catalogo e la sperimentazione di nuove strategie come la creatività a livello di parole chiave. In media, i marchi che utilizzano questi strumenti pubblicizzano un numero di prodotti cinque volte superiore e un numero doppio di immagini per prodotto pubblicizzato, spostando i budget su ciò che produce i risultati migliori.
In questo esempio, Amazon Ads ha utilizzato Nova Reel per creare un video pubblicitario per un marchio fittizio di pasta in scatola. Nella stravagante “Città della pasta”, gli edifici sono scolpiti in tubi di cannelloni, il quartiere è cosparso di spezie italiane e le strade sono costeggiate da saporita salsa marinara, fusilli e tenere polpette. Lo spot è un esempio di come gli inserzionisti possano dare vita ai loro prodotti e creare contenuti di alta qualità utilizzando i modelli di Amazon Nova.
Comprensione dei video
Per mettere alla prova le capacità di comprensione dei video di Amazon Nova Pro, abbiamo chiesto al modello di esaminare e descrivere un breve filmato muto di una partita di calcio. I risultati includono dettagli sull’ambientazione della partita, sulle uniformi della squadra, sulla descrizione delle azioni compiute dai giocatori e sul modo in cui la partita culmina.
Risultato: “Il video mostra una partita di calcio in corso su un campo verde. I giocatori di due squadre, una in divisa gialla e l’altra bianca, sono impegnati in un’azione di gioco. Il quarterback della squadra gialla lancia un passaggio a un ricevitore, che prende la palla e inizia a correre lungo il campo. I difensori della squadra bianca lo inseguono, cercando di placcarlo. L’azione culmina con un placcaggio che fa cadere il ricevitore sul campo”.
Generare materiali creativi
La comprensione visiva può anche aiutare i clienti a generare ulteriore materiale creativo. Ad esempio, Amazon Nova Pro può suggerire diverse didascalie per i social media per lo stesso video della partita di calcio.
Amazon Nova, i risultati dei test
I modelli Amazon Nova sono stati testati con un’ampia gamma di benchmark standard del settore.
Amazon Nova Micro, Nova Lite e Nova Pro hanno ottenuto risultati piuttosto competitivi rispetto ai migliori modelli delle rispettive categorie.
- Amazon Nova Micro è risultato uguale o migliore sia di Meta LaMa 3.1 8B su tutti gli 11 benchmark applicabili, sia di Google Gemini 1.5 Flash-8B su tutti i 12 benchmark applicabili. Grazie alla velocità leader del settore di 210 token di output al secondo, Amazon Nova Micro è ideale per le applicazioni che richiedono risposte rapide.
- Amazon Nova Lite è anche altamente competitivo con altri modelli della stessa classe di intelligenza; ha ottenuto prestazioni uguali o migliori su 17 dei 19 benchmark rispetto a GPT-4o mini di OpenAI, uguali o migliori su 17 dei 21 benchmark rispetto a Gemini 1.5 Flash-8B di Google e uguali o migliori su 10 dei 12 benchmark rispetto a Claude Haiku 3.5 di Anthropic.
Oltre a garantire l’accuratezza nei benchmark testuali, Amazon Nova Lite si distingue nella comprensione di video, grafici e documenti, come misurato da benchmark quali VATEX, ChartQA e DocVQA. Amazon Nova Lite eccelle anche nei flussi di lavoro agenziali, come la chiamata di funzioni misurata dalla Berkeley Function Calling Leaderboard e nelle capacità fondamentali di comprensione degli elementi visivi per l’esecuzione di azioni su browser e schermi di computer, come misurato da VisualWebBench (benchmark per la messa a terra di azioni su browser web) e Mind2Web (benchmark generalista per agenti multimodali).
Amazon Nova Pro ha ottenuto prestazioni uguali o migliori su 17 dei 20 benchmark rispetto a GPT-4o di OpenAI, uguali o migliori su 16 dei 21 benchmark rispetto a Gemini 1.5 Pro di Google e uguali o migliori su 9 dei 20 benchmark rispetto ad Anthropic Claude Sonnet 3.5v2. Oltre all’accuratezza nei benchmark di testo e intelligenza visiva, Amazon Nova Pro eccelle nel seguire le istruzioni e nei flussi di lavoro agenziali multimodali, come misurato dal Comprehensive RAG Benchmark (CRAG), dalla Berkeley Function Calling Leaderboard e da Mind2Web.
Supporto multilingue e multimodale con contesto lungo
Amazon Nova Micro, Lite e Pro supportano oltre 200 lingue. Amazon Nova Micro supporta una lunghezza del contesto di 128K token in ingresso, mentre Nova Lite e Nova Pro supportano una lunghezza del contesto di 300K token, ovvero 30 minuti di elaborazione video.
All’inizio del 2025, Amazon supporterà una lunghezza del contesto di oltre 2 milioni di token in ingresso.
Veloce e conveniente
Tutti i modelli Amazon Nova sono veloci ed economici e sono stati progettati per essere facili da usare con i sistemi e i dati del cliente. Amazon Nova Micro, Nova Lite e Nova Pro costano almeno il 75% in meno rispetto ai modelli più performanti delle rispettive classi di intelligenza in Amazon Bedrock. Sono anche i modelli più veloci nelle rispettive classi di intelligenza in Amazon Bedrock.
Integrazione perfetta con Amazon Bedrock
Tutti i modelli Amazon Nova sono integrati con Bedrock, un servizio completamente gestito che mette a disposizione foundation model ad alte prestazioni di aziende leader nel settore dell’intelligenza artificiale e di Amazon attraverso un’unica API. Utilizzando Amazon Bedrock, i clienti possono facilmente sperimentare e valutare i modelli Nova, così come altri foundation model, per determinare il modello migliore per un’applicazione.
Supporto per la regolazione fine per aumentare l’accuratezza
I modelli supportano anche la messa a punto personalizzata, che consente ai clienti di indirizzare i modelli verso esempi nei loro dati proprietari che sono stati etichettati per aumentare la precisione. Il modello Amazon Nova apprende ciò che è più importante per il cliente dai suoi dati (compresi testi, immagini e video), e poi Amazon Bedrock addestra un modello privato con regolazione fine che fornirà risposte personalizzate.
Distillazione per addestrare modelli più piccoli ed efficienti
Oltre a supportare la messa a punto, i modelli supportano anche la distillazione, che consente di trasferire conoscenze specifiche da un “modello insegnante” più grande e altamente capace a un modello più piccolo ed efficiente, altamente accurato, ma anche più veloce ed economico da eseguire.
RAG per fondare le risposte nei dati
I modelli Amazon Nova sono integrati con Amazon Bedrock Knowledge Bases ed eccellono nella Retrieval Augmented Generation (RAG), che consente ai clienti di garantire la massima precisione, fondando le risposte sui dati dell’organizzazione.
Ottimizzato per le applicazioni agenziali
I modelli Amazon Nova sono stati ottimizzati per renderli facili da usare ed efficaci nelle applicazioni agenziali che richiedono l’interazione con i sistemi e i dati proprietari di un’organizzazione attraverso più API per eseguire attività in più fasi.
Accesso a contenuti visivi con i modelli di generazione di contenuti creativi Amazon Nova
Amazon Nova Canvas è un modello di generazione di immagini all’avanguardia che crea immagini di livello professionale a partire da testo o immagini fornite nei prompt. Nova Canvas offre anche funzioni che facilitano la modifica delle immagini utilizzando input di testo e fornisce controlli per la regolazione della combinazione di colori e del layout. Il modello è dotato di controlli integrati per supportare un uso sicuro e responsabile dell’IA. Questi includono funzioni come il watermarking, che consente di rintracciare sempre la fonte di un’immagine, e la moderazione dei contenuti, che limita la generazione di contenuti potenzialmente dannosi.
Amazon Nova Canvas ha ottenuto risultati migliori rispetto a generatori di immagini come OpenAI DALL-E 3 e Stable Diffusion nelle valutazioni umane side-by-side condotte da una terza parte e nelle principali metriche automatizzate.
Amazon Nova Reel è un modello di generazione video all’avanguardia che consente ai clienti di creare facilmente video di alta qualità a partire da testo e immagini. È ideale per la creazione di contenuti in pubblicità, marketing o formazione. I clienti possono utilizzare suggerimenti in linguaggio naturale per controllare lo stile visivo e il ritmo, compresi il movimento della telecamera, la rotazione e lo zoom. Secondo le valutazioni umane condotte da una terza parte, che hanno preferito i video generati da Amazon Nova Reel a quelli generati da Runway Gen-3 Alpha, Amazon Nova Reel supera in qualità e coerenza modelli analoghi.
Come Amazon Nova Canvas, Nova Reel è dotato di controlli integrati per supportare la sicurezza e l’uso responsabile dell’AI, tra cui il watermarking e la moderazione dei contenuti. Amazon Nova Reel genera attualmente video di sei secondi e nei prossimi mesi supporterà la generazione di video fino a due minuti.
Il prossimo passo: modelli speech-to-speech e multimodal-to-multimodal
Amazon introdurrà un modello speech-to-speech Nova nel primo trimestre del 2025. Il modello è progettato per trasformare le applicazioni di intelligenza artificiale conversazionale comprendendo gli input vocali in streaming in linguaggio naturale, interpretando le indicazioni verbali e non verbali (come il tono e la cadenza) e fornendo interazioni naturali simili a quelle umane con una bassa latenza.
Amazon sta inoltre sviluppando un nuovo modello in grado di ricevere in ingresso testo, immagini, audio e video e di generare output in una qualsiasi di queste modalità.
Questo modello Nova con capacità native multimodali-multimodali – o “any-to-any” modality – sarà introdotto a metà del 2025. Semplificherà lo sviluppo di applicazioni in cui lo stesso modello può essere utilizzato per eseguire un’ampia gamma di attività, come la traduzione di contenuti da una modalità all’altra, la modifica di contenuti e l’alimentazione di agenti AI in grado di comprendere e generare tutte le modalità.
AI responsabile
I modelli Nova sono costruiti con misure di sicurezza e protezioni integrate. L’azienda ha lanciato le AWS AI Service Cards per i modelli Nova, che offrono informazioni trasparenti sui casi d’uso, sulle limitazioni e sulle pratiche di AI responsabile.
Per saperne di più e iniziare a lavorare con Amazon Nova.