Amazon Nova, AWS punta sull'AI con il nuovo modello multimodale

Business

Nel corso dell’evento re:Invent 2024, AWS ha presentato la nuova famiglia di modelli generativi basati sull’intelligenza artificiale: Amazon Nova. L’azienda guidata da Andy Jassy presenta la suite di modelli come in grado di rivoluzionare il panorama dell’AI generativa, abbinando prestazioni all’avanguardia con un costo competitivo.

L'”offerta” Amazon Nova prevede due approcci differenti che poggiano sull’utilizzo di modelli di comprensione, progettati per analizzare documenti complessi, video, grafici e diagrammi, e modelli per la generazione creativa, ideali per generare contenuti visivi e video di alta qualità.

Tutti i modelli sono accessibili tramite Amazon Bedrock, la piattaforma AWS dedicata all’AI generativa, e integrano funzionalità di sicurezza avanzate, come moderazione dei contenuti e watermarking.

I dettagli sui modelli generativi Amazon Nova

I modelli di comprensione elaborano input testuali, immagini e video, generando output testuali. Brillano in scenari come RAG (Retrieval Augmented Generation), funzioni API e applicazioni che prevedono l’impiego di “agenti” software. I principali modelli di questa categoria sono i seguenti:

Amazon Nova Micro: Specializzato nell’elaborazione del testo, offre la latenza più bassa e un costo ridotto. Ideale per riassunti, traduzioni e brainstorming con un contesto massimo di 128K token. Supporta il fine-tuning per personalizzazioni avanzate.
Amazon Nova Lite: Modello multimodale a basso costo e ad alta velocità. Analizza immagini, video (fino a 30 minuti) e testo per risposte accurate. Con un contesto massimo di 300K token, è perfetto per analisi documentali e interazioni in tempo reale.
Amazon Nova Pro: Multimodale avanzato per compiti complessi come l’analisi finanziaria o workflow basati sull’uso di “agenti”. Con un contesto di 300K token, eccelle nell’elaborazione di grandi dataset, come codici sorgente o documenti visivi dettagliati.
Amazon Nova Premier: In fase di sviluppo, promette capacità di “ragionamento” superiori e prestazioni leader di settore. La disponibilità è prevista per il prossimo anno.

Tra i modelli per la generazione creativa ci sono invece i seguenti. Entrambi portano ai massimi livelli l’interazione multimodale consentendo di creare non solo testi ma soprattutto immagini e video di qualità.

Amazon Nova Canvas: Un modello di generazione delle immagini che combina precisione stilistica e funzionalità avanzate (ad esempio inpainting e rimozione dello sfondo).
Amazon Nova Reel: Ideale per creare video di qualità professionale con controllo su stile e ritmo. Perfetto per campagne di marketing e intrattenimento.

Applicazioni pratiche

I possibili campi applicativi sono praticamente infiniti. Con Amazon Nova Pro, è possibile analizzare documenti complessi e generare riassunti o alberi decisionali. Utilizzando la console di Amazon Bedrock, un utente può caricare un PDF e ricevere risultati strutturati in pochi secondi.

Il modello Amazon Nova Pro può anche analizza video fornendo descrizioni dettagliate. Ad esempio, può individuare oggetti o contesti visivi senza processare l’audio.

Con Amazon Nova Reel, è possibile creare video da prompt testuali o immagini di riferimento. La generazione avviene tramite API (Application Programming Interfaces) e i risultati sono salvati direttamente su Amazon S3.

Questo post di presentazione mostra alcuni esempi concreti sviluppati per “dialogare” in tempo reale con l’AI di Amazon Nova. Attraverso l’uso delle API si possono inviare ad Amazon Nova i prompt in linguaggio naturale ed eventuali informazioni aggiuntive, come il formato del file che si desidera ottenere, le sue caratteristiche tecniche, la temperatura (quanto il modello deve essere creativo) e così via.

Sicurezza e sviluppi futuri

Con Amazon Nova, AWS sblocca tutto il potenziale dell’AI mettendolo a disposizione dei singoli sviluppatori, dei professionisti e delle imprese che si appoggiano al cloud AWS. Tutte le soluzioni possono poi essere direttamente integrate nelle proprie applicazioni.

AWS prevede di introdurre due ulteriori modelli entro il 2025: un modello speech-to-speech, per interazioni vocali naturali e contestuali; un modello multimodale-nativo “Any-to-Any” capace di trasformare contenuti in linea diretta, indipendentemente dalla loro tipologia (testi, immagini, audio e video).

I portavoce di AWS sottolineano inoltre che Amazon Nova è progettato con un focus sulla sicurezza e sull’uso etico dell’intelligenza artificiale, includendo l’uso di watermarking per i contenuti generati e controlli di sicurezza avanzati.

Disponibilità e prezzi

Amazon Nova è inizialmente disponibile in un numero limitato di “regioni” di AWS mentre la politica di prezzo segue un modello pay-as-you-go, calcolato in base all’effettivo utilizzo.

AWS ribadisce che questo è solo l’inizio sulla strada dell’innovazione nel florido segmento dell’intelligenza artificiale. L’azienda promette ulteriori sviluppi nel breve termine per fornire valore tangibile ai propri clienti.