Proprio a distanza di poche ore dal lancio di Stable Diffusion 3.5, quasi proprio a voler rovinare la festa, OpenAI ha pubblicato un breve intervento per spiegare di aver sviluppato una soluzione ancora migliore. Si chiama sCM (Stabilized Consistency Model), è frutto di un pesante lavoro di ricerca e consiste in un approccio innovativo per la generazione di immagini di qualità con l’intelligenza artificiale, in tempi ancora più ridotti.
I modelli generativi per la creazione e l’elaborazione di immagini, infatti, tendenzialmente utilizzano la tecnica di diffusione. Ci siamo soffermati sul suo funzionamento nell’articolo citato in precedenza. Gli ingegneri di OpenAI, tuttavia, hanno nel frattempo sviluppato un’alternativa, detta appunto sCM. Essa semplifica e velocizza il processo di diffusione. Mentre infatti lo schema tradizionale richiede decine o addirittura centinaia di passi di campionamento, sCM necessita solo di due passaggi per generare risultati visivi di alta qualità.
Il modello di diffusione
La metodologia classica, basata sull’IA, che sfrutta un modello diffusivo come Stable Diffusion apprende le sue abilità generative attraverso l’aggiunta e la rimozione ripetuta di rumore dai dati forniti in ingresso (di solito voluminosi insiemi di foto digitali). Il numero di volte in cui il rumore è rimosso, è definito “passo di campionamento”. Sebbene un aumento del passo di campionamento migliori moderatamente la qualità dei risultati generati, ciò comporta anche un incremento del tempo di elaborazione. Per questa ragione, i ricercatori stanno sviluppando soluzioni in grado di mantenere un’elevata qualità dei risultati anche con un numero ridotto di passi di campionamento.
OpenAI ha messo in evidenza che le soluzioni attualmente disponibili spesso comportano vincoli come elevati costi computazionali, complessità nella fase di addestramento e riduzione della qualità dei campioni.
L’approccio sCM messo a punto da OpenAI
A differenza dei modelli di diffusione, che generano campioni attraverso una serie di passaggi di rimozione del rumore, sCM è stato progettato per convertire direttamente il rumore in campioni privi di rumore in un solo passaggio.
Gli ingegneri di OpenAI spiegano che sCM si distingue per un campionamento rapido ed efficiente. Il modello, da 1,5 miliardi di parametri, è addestrato su ImageNet con una risoluzione di 512×512 pixel ed è capace di generare un campione (ossia l’immagine finale) in soli 0,11 secondi su una singola GPU A100, senza alcuna ottimizzazione sulla fase di inferenza. ImageNet è un famoso dataset che contiene milioni di immagini utilizzate per addestrare sistemi di visione artificiale.
Con ulteriori ottimizzazioni, i modelli costruiti a partire da sCM possono essere utilizzati per generazioni in tempo reale di immagini, audio e video di alta qualità.
La qualità delle immagini generate dai modelli generativi è valutata tramite lo standard Fréchet Inception Distance (FID). I risultati indicano che sCM produce campioni di qualità comparabile a quelli dei metodi convenzionali, utilizzando meno del 10% dell’impegno computazionale effettivo richiesto per il campionamento.
Gli sviluppi futuri secondo OpenAI
I portavoce di OpenAI hanno dichiarato: “continueremo a lavorare per sviluppare modelli generativi migliori, con velocità di inferenza e qualità dei campioni migliorate. Riteniamo che questi progressi apriranno nuove possibilità per l’AI generativa in tempo reale, ad alta qualità, in una vasta gamma di campi applicativi“.
Da tempo è chiara la rotta che sta seguendo OpenAI (come altri importanti player del settore): l’obiettivo è sviluppare modelli generativi multimodali, capaci di migliorare le loro abilità e migliorare in maniera netta le modalità di interazione uomo-macchina.
È impossibile paragonare il cervello umano al funzionamento di un’intelligenza artificiale: in un certo senso, tuttavia, le versioni più evolute dei modelli IA stanno acquisendo abilità di ragionamento (chain-of-thought). È un concetto di “ragionamento” molto diverso da quello umano ma la generazione di un risultato sempre più ineccepibile, grazie all’adozione di una serie di passaggi (raffinamenti), rappresenta senza dubbio un nuovo importante passaggio storico.