Un avatar, si sa, è una rappresentazione grafica, animata o statica, di un utente in un ambiente digitale. Può essere un’immagine stilizzata, un disegno o una fotografia di una persona, un personaggio creato dall’utente stesso o un’immagine predefinita fornita dalla piattaforma. Gli avatar possono anche rappresentare un’identità alternativa o un personaggio che contraddistingue una persona in carne ed ossa nello spazio virtuale. Preistoria.
Il team di ricerca di Google ha annunciato VLOGGER, un framework di intelligenza artificiale in grado di generare video realistici di persone che parlano e gesticolano, in perfetta sincronia con la loro voce. Di cosa ha bisogno il modello generativo Google per creare tutto questo? Semplicemente una singola foto della persona da “animare” in digitale all’interno di un video e di un piccolo spezzone di parlato.
VLOGGER: rivoluzione nell’intelligenza artificiale generativa
Le tecnologie basate sull’uso dell’intelligenza artificiale continuano a fare passi da gigante. L’ultima pietra miliare è posta dal team di Google Research guidato da Enric Corona, esperto di IA e modellazione 3D umana.
VLOGGER si basa su un tipo di modello di machine learning chiamato “modello di diffusione“. Questo modello, insieme al ricco dataset chiamato MENTOR, costituisce la spina dorsale di questa rivoluzionaria tecnologia.
Il dataset MENTOR è un vasto archivio che contiene oltre 800.000 identità diverse e più di 2.200 ore di video. Questo ampio e diversificato set di dati ha consentito a VLOGGER di apprendere una vasta gamma di caratteristiche umane, inclusi etnie, età, abbigliamento, pose e ambienti circostanti. Gli sviluppatori hanno inoltre riposto massima attenzione nell’evitare i cosiddetti bias, ossia comportamenti indesiderati che possono amplificare pregiudizi o stereotipi presenti nei dati di addestramento.
Come funziona VLOGGER
Per generare un video, è sufficiente fornire al sistema un’immagine base e una breve registrazione vocale. VLOGGER utilizza quindi una rete neurale per creare controlli di movimento del corpo basati sui dati dell’audio, che comprendono la direzione verso la quale la persona sta volgendo il suo sguardo, l’espressione facciale e la posa. Successivamente, un’altra rete neurale estende un modello di diffusione di immagini su larga scala per generare i fotogrammi corrispondenti ai vari movimenti, utilizzando i dati in ingresso.
Secondo il team di ricerca Google, VLOGGER supera altri metodi all’avanguardia in termini di qualità dell’immagine, conservazione dell’identità e coerenza temporale. Un’altra caratteristica distintiva di VLOGGER è la sua capacità di generare immagini complete che includono non solo il viso e le labbra, ma anche altre parti del corpo come le mani e le espressioni facciali.
Quali i possibili campi applicativi
Un potente strumento come VLOGGER potrebbe essere sfruttato per creare modelli 3D dettagliati, avatar fotorealistici per realtà virtuale e giochi, assistenti virtuali e molto altro ancora.
Tuttavia, come ogni tecnologia di ultima generazione, anche VLOGGER può presentare anche rischi. La facilità con cui i video possono essere creati, aumenta le sfide legate alle fake news e alla manipolazione di contenuti digitali. È importante prendere in considerazione tali problematiche e adottare misure per mitigarli.
D’altra parte, se il Garante Privacy italiano aveva aperto un’istruttoria su OpenAI Sora, meccanismo che consente di creare video professionali da semplici descrizioni testuali, figurarsi quale potrà essere la reazione nei confronti di VLOGGER che interviene direttamente su immagini e registrazioni vocali, potenzialmente ascrivibili ad altri soggetti.
Per questi e altri motivi, la tecnologia alla base di VLOGGER non è ancora pubblicamente accessibile: il sito ufficiale del progetto mostra tutta una serie di dimostrazioni pratiche.