Se il primo boom dell’Intelligenza Artificiale è arrivata con la generazione di testo e immagini, la seconda ondata sta riguardando la creazione di video.
Dapprima clip di pochi secondi, senza audio e con ben poco senso, oggi la generazione di filmati tramite IA ha raggiunto traguardi impensabili anche solo pochi mesi fa. In questo percorso, il giorno di ieri, 17 giugno 2024, potrebbe essere ricordato a lungo: Google DeepMind, infatti, ha annunciato il lancio di un nuovo e importante progetto. Stiamo parlando di video-to-audio, noto più semplicemente come V2A.
Questa nuova nuova IA è in grado di generare audio in grado di adattarsi come soffondo a qualunque video, creando atmosfere che si adattano perfettamente al filmato. Che si tratti di una scena drammatica, ad alta tensione o persino di dialoghi tra personaggi, V2A sembra riuscire a creare contenuti coerenti con quanto appare a schermo.
Google DeepMind e V2A: ecco le potenzialità del nuovo strumento IA
Qualche esempio per capire come lavora V2A? Fornendo all’IA un filmato alcune parole chiave come “Cinematografo, thriller, film horror, musica, tensione, atmosfera, passi sul cemento” il risultato è il seguente:
Il sistema V2A codifica prima il video in ingresso, quindi utilizza un modello di diffusione per generare suoni ripetuti casuali e, una volta fatto ciò, procede con la decodifica e sintetizza i dati audio rendendoli coerenti con il video.
Non solo: poiché il sistema V2A è in grado di comprendere i video, l’immissione di istruzioni di testo è facoltativa. Nonostante ciò, come è facile intuire, non si tratta ancora di una tecnologia affinata.
I limiti di questo sistema vengono a galla, per esempio, quando si parla di sincronizzazione labiale. Nel caso di un dialogo, infatti, l’audio può risultare fuori tempo. Nonostante quest’ultima problematica, quanto proposto da Google DeepMind resta rivoluzionario e potrebbe aprire un nuovo ed entusiasmante capitolo nell’evoluzione dell’IA.