Gli algoritmi di intelligenza artificiale che generano automaticamente delle immagini fotorealistiche partendo dal linguaggio naturale saranno sempre più utilizzati nel corso dei prossimi anni. Essi potrebbero cambiare radicalmente lo status quo rivoluzionando il mondo dell’editoria, della fotografia, del publishing.
Aziende come Microsoft, Google ed NVidia sono da tempo al lavoro per mostrare le potenzialità dei rispettivi sistemi che poggiano le loro fondamenta sulle reti neurali e su un’approfondita attività di deep learning.
In risposta agli investimenti di Microsoft su DALL-E, Google ha recentemente mostrato come creare immagini fotorealistiche con il suo Imagen.
La comunità di ricerca ha nel frattempo partorito Stable Diffusion, un algoritmo che tutti possono utilizzare perché aperto e perché accessibile anche sotto forma di API di programmazione.
Nelle scorse settimane avevamo descritto il modello linguistico utilizzabile gratis a partire dal quale vengono composte le immagini.
Stable Diffusion viene rilasciato con una licenza permissiva che ne consente l’uso commerciale e non commerciale. Il “classificatore” che è stato sviluppato riesce a comprendere il significato delle frasi digitate dall’utente, la semantica di ciascuna affermazione e rimuovere dall’output quegli elementi che potrebbero risultare indesiderati.
Come avevamo evidenziato nell’articolo citato in precedenza, poiché il modello (come avviene per gli altri di Microsoft, Google, NVidia,…) è stato addestrato utilizzando coppie immagine-testo derivanti da un’operazione di scansione delle risorse pubblicate sul Web, i risultati potrebbero comunque non essere ottimali. In certi casi, inoltre, il modello può riprodurre alcuni pregiudizi radicati nella nostra società e generare contenuti che non dovrebbero essere prodotti.
Stable Diffusion è però il risultato di un lavoro imponente che ha permesso di condensare in un’unica soluzione pesante pochi gigabyte tutte le informazioni visive dell’umanità.
Al momento Stable Diffusion soffre di non pochi problemi nella gestione dei volti umani che spesso possono apparire fortemente distorti (è una caratteristica che accomuna la maggioranza dei generatori di immagini odierni) ma se si chiede di generare oggetti, ambienti e paesaggi i risultati sono spesso molto interessanti.
Come provare a generare immagini con l’intelligenza artificiale di Stable Diffusion
A differenza di altri strumenti, Stable Diffusion può essere provato da parte di chiunque servendosi della demo di Hugging Face. Per ridurre i tempi di generazione delle immagini si può utilizzare la beta di DreamStudio. Digitando una frase, preferibilmente in inglese, nell’apposito campo l’intelligenza artificiale genererà le immagini richieste. Potrebbe essere necessario ripetere l’operazione più volte per trovare una creatività che fa al caso vostro.
Attenzione però perché i crediti su DreamStudio non sono illimitati: la generazione di immagini potrebbe essere presto interrotta dopo aver fatto qualche test. La guida per le richieste da inviare a DreamStudio aiuta l’utente a comprendere quali sono i termini migliori da usare per descrivere ciò che si desidera ottenere.
Esempi pratici di utilizzo sono disponibili anche nella pagina GitHub di Stable Diffusion mentre qui sono disponibili ulteriori dettagli sul modello.