Giusto qualche ora fa Stability AI ha annunciato Stable Diffusion 3.
Il nuovo generatore di immagini IA segue il percorso già tracciato dai suoi predecessori, migliorando i contenuti elaborati e offrendo una comprensione più specifica dell’input testuale degli utenti.
I modelli di Stable Diffusion 3, secondo i suoi creatori, può prendere in considerazione da 800 milioni a 8 miliardi di parametri per generare un’immagine. Ciò significa output visuali con una quantità di dettagli impressionante.
Il breve annuncio di Stability AI non è stato accompagnato da alcun tipo di dimostrazione, anche se la compagnia ha aperto una lista d’attesa per i primi e fortunati tester del nuovo strumento.
A descrivere, perlomeno in parte, le potenzialità Stable Diffusion 3 è stato il CEO dell’azienda, ovvero Emad Mostaque. Lo stesso, attraverso X, ha spiegato come lo strumento sfrutta un nuovo sistema simile a quanto proposto da Sora, combinato con diversi altri miglioramenti.
Stable Diffusion 3, il CEO di Emad Mostaque rivela qualcosa in più sul nuovo strumento
Stability, a partire dal 2022, ha sempre curato con grande attenzione i modelli per la generazione di immagini IA.
A partire da Stable Diffusion 1.4, fino a XL Turbo e all’ultimo annuncio, la compagnia si è dimostrata un più che degno concorrente di DALL-E 3 proposto da OpenAI. Tutto ciò pur dovendo affrontare anche diversi problemi per quanto riguarda questioni di copyright.
Tornando all’ultima versione di questo potentissimo tool, Mostaque ha spiegato il nuovo sistema di creazione di immagini. Questo sfrutta l’architettura diffusion transformer che, di fatto, va a lavorare combinando tra loro minuscoli pezzi di fotografie seguendo alcuni specifici schemi e sequenze (oltre alle istruzioni dell’utente).
Inoltre, Stable Diffusion 3 adotta la tecnica nota come flow matching, utile per generare immagini complesse partendo da un contenuti visuali confusi e approssimativi. Tutto ciò porta a risultati impressionanti sotto il punto di vista, con immagini di qualità superiore rispetto al passato.
Sfortunatamente, l’assenza di una vera e propria demo non permette di valutare le reali potenzialità dello strumento. Le poche generazioni pubblicate finora, a prima vista, offrono contenuti convincenti ma simili a quanto generato con il già citato DALL-E 3, Midjourney e Google Imagen. A prima vista, Stable Diffusion 3 sembra gestire in modo ottimale i prompt.
Secondo Stability, una volta completati i test, lo strumento sarà accessibile a tutti gratuitamente. La compagnia ha tenuto a sottolineare la grande importanza di questa fase di prova, periodo in cui verranno raccolte informazioni utili per ottimizzare prestazioni e garantire un utilizzo sicuro dello strumento.