La startup francese Mistral ha annunciato il suo primo modello multimodale, Pixtral 12B, capace di elaborare simultaneamente testo e immagini. Pixtral 12B, basato appunto su 12 miliardi di parametri, apre nuove prospettive per compiti avanzati come la descrizione di immagini, l’identificazione di oggetti e la risposta a domande aventi a che fare con i contenuti visivi.
Il nuovo modello è distribuito sotto licenza Apache 2.0: ciò significa che chiunque può scaricarlo, utilizzarlo e modificarlo liberamente senza limitazioni. Il modello è disponibile per il download tramite un link torrent condiviso direttamente da Mistral, seguendo la stessa metodologia adottata in precedenza per il rilascio del loro modello 8x22B MOE, con ben 176 miliardi di parametri e una lunghezza di contesto pari a 65k.
Disponibilità del modello IA multimodale Pixtral 12B: come funziona e a cosa serve
Attualmente, non esiste una demo del modello multimodale Pixtral 12B accessibile online. Mistral, tuttavia, ha reso disponibile il codice su GitHub e sulla piattaforma Hugging Face.
Secondo Sophia Yang, responsabile delle relazioni con gli sviluppatori presso Mistral, il modello sarà presto integrato nelle piattaforme chatbot e API dell’azienda, denominate rispettivamente Le Chat e La Plateforme. In questo modo, una platea molto più ampia di utenti potrà metterne alla prova le caratteristiche.
Un aspetto critico riguarda i dati di addestramento utilizzati per comporre Pixtral 12B. Non è chiaro se l’azienda abbia sfruttato immagini protette da diritto d’autore, una questione che ha già sollevato spiacevoli controversie con le aziende che hanno sviluppato altri modelli di intelligenza artificiale.
Con il nuovo Pixtral 12B, la transalpina Mistral conferma ancora una volta il suo impegno nell’innovazione, rafforzando la sua posizione nel panorama dell’intelligenza artificiale multimodale e proseguendo nella sua strategia di rilasciare modelli ad alta capacità e accessibili al pubblico, sia per finalità di ricerca che applicative.
Cosa si può fare con un modello multimodale come Pixtral 12B
Un modello multimodale, come Pixtral 12B, è un sistema basato sull’intelligenza artificiale progettato per elaborare e comprendere dati provenienti da diverse modalità, cioè formati o tipi di input distinti, come testo e immagini. Questa capacità consente una vasta gamma di applicazioni che sfruttano simultaneamente informazioni testuali e visive, ampliando il campo di utilizzo rispetto ai modelli unicamente testuali o visuali.
Il modello può prendere un’immagine in ingresso e generare automaticamente una descrizione testuale accurata. Ad esempio, può analizzare una foto di un paesaggio e descriverne gli elementi visibili Ma può anche identificare oggetti specifici presenti nelle immagini. Un bel vantaggio nelle applicazioni come il riconoscimento visivo per l’automazione industriale, il controllo di qualità, o per facilitare l’accessibilità attraverso la descrizione di oggetti per persone non vedenti.
Un modello multimodale come Pixtral 12B può però rispondere a domande legate a contenuti visuali. Ad esempio, caricando una foto, l’utente può chiedere al sistema di identificare dettagli specifici: “Quanti alberi ci sono nell’immagine?” o “Qual è la marca dell’auto presente nella foto?”.
Si possono sviluppare velocemente applicazioni utili ad effettuare ricerche per immagini. Ad esempio, l’utente può fornire un’immagine di un prodotto e il modello può cercare informazioni correlate, come descrizioni, specifiche tecniche o siti di acquisto.
I modelli multimodali possono essere utilizzati per tradurre testo contenuto in immagini (come cartelli o documenti) in diverse lingue, oppure per fornire contesto aggiuntivo sulle immagini, come la spiegazione di termini o concetti difficili.
In campi come la medicina o la scienza, i modelli multimodali possono esaminare nel dettaglio immagini complesse come radiografie o immagini satellitari, descrivendo anomalie o punti d’interesse che richiedono ulteriori analisi.
Credit immagine in apertura: iStock.com – Supatman