Stable Audio Open, come generare campioni audio con l'intelligenza artificiale

Stability AI ha rilasciato un nuovo prodotto che, questa volta, sarà di grande aiuto per chi si occupa di produzione audio. Il suo nome è Stable Audio Open: si tratta di un modello open source ottimizzato per la generazione di brevi campioni audio (possono avere una durata massima di 47 secondi) a partire da un semplice prompt testuale, presentato utilizzando il linguaggio naturale.

L’attenta fase di addestramento ha permesso di realizzare uno strumento in grado di creare battute di batteria, riff strumentali, suoni ambientali, effetti foley ed elementi di produzione.

I drum beats o battute di batteria sono pattern ritmici creati per la batteria o la percussione, fondamentali per creare la struttura ritmica di una canzone o di una composizione musicale. Un riff è una sequenza di note o accordi ripetuti che costituiscono un motivo musicale riconoscibile e distintivo. I suoni ambientali, d’altra parte, creano l’atmosfera o lo sfondo acustico di una composizione mentre il foley è l’arte di creare e registrare suoni realistici per film, televisione, giochi e altri media audiovisivi. Questi suoni includono, ad esempio, passi su diverse superfici, suoni di oggetti che si toccano o si muovono, suoni di ambiente specifici, e così via.

A cosa serve Stable Audio Open

Il principale vantaggio di Stable Audio Open è certamente la sua architettura aperta. Tutti possono generare fino a 47 secondi di dati audio di alta qualità partendo da un testo contenente le indicazioni precise su ciò che si desidera ottenere.

Gli utenti, inoltre, possono adattare il modello e, di conseguenza, perfezionarne i risultati, sfruttando registrazioni audio personalizzate. Ad esempio, un batterista potrebbe “regolare” il comportamento del modello di Stability AI su campioni delle proprie registrazioni di batteria, al fine di generare nuove battute.

Stable Audio Open è incentrato sulla generazione di campioni audio, effetti sonori ed elementi di produzione. Anche se può generare brevi clip musicali, non è ottimizzato per produrre vere e proprie musiche, melodie o voci.

Il prodotto commerciale Stable Audio, contemporaneamente lanciato sul mercato da Stability AI, permette invece di produrre tracce complete – con una struttura musicale coerente – della durata di 3 minuti (valore massimo).

A tutti gli interessati, suggeriamo di esplorare anche il funzionamento di prodotti come Suno AI e Udio.

Come usare il modello aperto

Il nuovo modello Stable Audio Open è stato addestrato su dati provenienti da FreeSound e Free Music Archive. I tecnici di Stability AI sottolineano che questa scelta ha permesso di creare un modello audio aperto rispettando i diritti dei creatori dei contenuti.

I pesi del modello Stable Audio Open sono pubblicamente disponibili su Hugging Face. Sound designer, musicisti, sviluppatori e appassionati di audio possono quindi scaricare il modello, esplorarne le capacità e fornire riscontri sul suo comportamento.

Nei contesti di machine learning e deep learning, i pesi sono parametri interni del modello appresi durante il processo di addestramento. Questi pesi determinano la condotta del modello e sono utilizzati durante la fase di inferenza per generare output coerenti.

Hugging Face è la nota piattaforma online che ospita modelli di deep learning pre-addestrati, librerie di modelli e strumenti per l’elaborazione del linguaggio naturale (NLP). Grazie a questo strumento, gli sviluppatori possono condividere e utilizzare una vasta gamma di modelli pre-addestrati per vari scopi, tra cui la generazione di testo e di audio.

Per accedere al modello di Stability AI attraverso Hugging Face, è necessario effettuare il login, inserire i dati richiesti quindi cliccare sul pulsante Agree and access repository.

Un esempio di codice Python per usare Stable Audio Open

L’esempio di codice Python condiviso nella pagina Hugging Face del progetto, premette di generare audio utilizzando la GPU (NVIDIA CUDA) oppure la CPU (in questo caso il processo richiederà molto più tempo…). Inoltre, si fa carico di effettuare il download del modello di Stability AI.

Il codice inizia importando le librerie necessarie per l’esecuzione quindi, dopo una serie di passaggi, definisce il prompt. In questo caso è richiesta la generazione di un loop di tamburi a 128 BPM della durata di 30 secondi.

Si procede quindi con la generazione dell’audio utilizzando la configurazione definita e le condizioni impostate. Il batch di sequenze audio è quindi trasformato in una singola sequenza, successivamente normalizzata, ottimizzata e salvata sotto forma di file in formato WAV.

Fondata a Londra nel 2020, Stability AI si è rapidamente affermata come un attore chiave nello sviluppo e diffusione di modelli basati sull’intelligenza artificiale, per la generazione di contenuti visivi a partire da input testuali. Il focus principale di Stability AI è infatti proprio lo sviluppo di modelli di intelligenza artificiale per la generazione di immagini tramite testo, noti come text-to-image AI.

Il rilascio di alcuni suoi modelli sotto forma di prodotti open source, ha contribuito a democratizzare l’accesso alle tecnologie di IA in grado di generare immagini, prima esclusivamente appannaggio delle più grandi aziende tecnologiche.