Si chiama Stable Diffusion il modello di apprendimento automatico profondo pubblicato nel 2022 che fa leva sull’intelligenza artificiale per generare immagini di qualità a partire da descrizioni testuali.
Già ad agosto avevamo visto come generare immagini dal testo usando proprio Stable Diffusion.
Uno dei tanti vantaggi di Stable Diffusion è che il codice alla base del funzionamento del modello è stato reso pubblico. Il modello è stato addestrato usando almeno 5 miliardi di coppie di immagini e didascalie, classificate in base alle loro caratteristiche.
Due ricercatori, Seth Forsgren e Hayk Martiros, hanno dimostrato le enormi potenzialità di Stable Diffusion: hanno infatti modificato e adattato il modello per generare immagini di spettrogrammi ovvero rappresentazioni grafiche dell’intensità di un suono in funzione del tempo e della frequenza.
E così è nato Riffusion, uno strumento che genera spezzoni musicali combinando strumenti e, spesso, generando risultati molto interessanti.
Poiché l’asse x rappresenta il tempo e l’asse y la frequenza, il colore di ciascun pixel fornisce l’ampiezza sonora alla frequenza e al tempo derivanti dall’incrocio tra riga e colonna. Utilizzando la trasformata di Fourier a tempo breve è possibile generare lo spettrogramma a partire dall’audio. La funzione, tuttavia, è invertibile: Forsgren e Martiros hanno quindi utilizzato lo spettrogramma prodotto da Stable Diffusion per creare l’audio.
Allo scopo viene utilizzata la libreria Torchaudio che integra tutto il necessario per eseguire l’elaborazione audio con la GPU.
Il risultato del lavoro svolto dai due ricercatori può essere ascoltato sul sito del progetto Riffusion che ovviamente offre la possibilità di generare brani musicali in proprio fornendo la descrizione di ciò che si vuole ottenere. Maggiori dettagli tecnici su Riffusion sono disponibili nella pagina dedicata.
In fondo alla stessa pagina sono pubblicati i link che fanno riferimento ai repository GitHub: gli interessati possono scaricare il codice e usare Riffusion sui propri sistemi.