Le soluzioni che sfruttano l’intelligenza artificiale per generare immagini di qualità a partire da semplici o complesse descrizioni testuali (linguaggio naturale) stanno facendo passi da gigante. A fine settembre 2022 abbiamo parlato di DALL-E, strumento partorito da OpenAI (Microsoft ed Elon Musk) mentre ad agosto presentammo Stable Diffusion, algoritmo text-to-image che tutti possono utilizzare in quanto e perché accessibile anche sotto forma di API di programmazione.
Oggi ne è stata presentata un’importante evoluzione, ovvero Stable Diffusion 2.0, piattaforma che è stata addestrata utilizzando modelli robusti e un nuovo text encoder capace di migliorare significativamente la qualità delle immagini generate rispetto alla precedente generazione.
I modelli text-to-image predisposti per Stable Diffusion 2.0, possono generare immagini con una risoluzione di 512×512 e 768×768 pixel.
La seconda importante novità di Stable Diffusion 2.0 è che il nuovo modello Upscaler Diffusion permette di migliorare la risoluzione delle immagini di un fattore pari a 4.
La pagina con gli esempi di realizzazioni contiene un’immagine da appena 128×128 pixel che è stata riscalata a una risoluzione più importante (512×512 pixel).
Il meccanismo Upscale Diffusion permette l’upscaling sicuro delle immagini senza alcuna perdita qualitativa. Quando si effettua l’upscaling di una foto, infatti, si modificano le dimensioni in modo che l’immagine sia più grande: poiché ci sono meno pixel di quelli richiesti, un pixel viene rappresentato da più pixel causando uno sgranamento e una perdita di qualità: Upscale Diffusion consente di ovviare a questi problemi.
Grazie ai nuovi modelli, Stable Diffusion 2.0 può generare – anche con l’upscaling – immagini di risoluzione pari a 2048×2048 pixel o anche superiore.
Notevole è anche il modello Depth-to-Image Diffusion, chiamato depth2img: estende le abilità della precedente versione aprendo le porte a tutta una serie di possibilità “inedite” a beneficio dei creativi. Depth2img determina la profondità di un’immagine fornita come input quindi genera nuove immagini utilizzando sia le descrizioni testuali fornite dall’utente che le informazioni sulla profondità.
Su GitHub è pubblicato il codice di Stable Diffusion 2.0 insieme con i comandi per generare le varie tipologie di immagini.
Gli sviluppatori del progetto affermando di aver lavorato sodo per ottimizzare il modello al fine di poterlo usare ed eseguire su una singola GPU: l’obiettivo era infatti quello di renderlo accessibile a quante più persone possibile fin dall’inizio.
“Abbiamo già visto che, quando milioni di persone mettono le mani su questi modelli, creano collettivamente cose davvero sorprendenti. Questo è il potere dell’open source: sfruttare il vasto potenziale di milioni di persone di talento che potrebbero non avere le risorse per addestrare un modello all’avanguardia ma che hanno la capacità di fare qualcosa di incredibile con un modello già pronto e immediatamente fruibile“, si legge in una nota.