La saga di Indiana Jones si è prevalentemente sviluppata nel corso degli anni ’80 con i primi tre film e il quarto, proiettato per la prima volta nelle sale nel 2008, tutti diretti da Steven Spielberg. A distanza di 15 anni dall’ultimo capitolo e di ben 42 dal primo, anche il quinto “Indiana Jones e il quadrante del destino” (2023) vede sempre come protagonista un Harrison Ford all’inizio delle riprese (2021) ormai 80enne. FRAN, acronimo di Face Re-Aging Network, è il sistema usato dalla Disney – subentrata a Lucasfilm nell’ultimo episodio della serie – per ringiovanire il leggendario attore holliwoodiano. Vediamo di che cosa si tratta e, a grandi linee, come funziona.
Cos’è FRAN, la rete neurale che ha tolto (virtualmente) ben 45 anni a Harrison Ford
La quinta parte della serie Indiana Jones, destinata a essere davvero l’ultima, comincia con una scena ambientata nel 1944, circa sei anni dopo gli eventi di Indiana Jones e l’ultima crociata, il terzo film del 1989. Sullo schermo, tuttavia, un 35enne Indy combatte i soldati nazisti per quasi mezz’ora. Per ringiovanire virtualmente Harrison Ford, Disney ha utilizzato la sua tecnologia proprietaria FRAN che è efficace sia per le operazioni di deaging che di aging. In altre parole, FRAN può essere utilizzata sia per ridurre l’età che per invecchiare (reaging).
Modificare la resa di un attore in un video così che appaia più vecchio o più giovane, è un processo costoso e laborioso che fino ad oggi ha richiesto un intervento manuale su ciascun fotogramma. In passato sono stati fatti diversi tentativi per automatizzare il processo ricorrendo alle reti neurali e al machine learning. I ricercatori di Disney Research fanno notare che mentre i risultati sono generalmente accettabili per le immagini fisse, interventi più estesi su intere sequenze video tipicamente portano alla perdita dell’identità facciale, all’ottenimento di una bassa risoluzione dell’immagine e, in generale, a risultati instabili.
I tecnici di Disney affermano che la loro soluzione offre il primo metodo pratico, completamente automatico e pronto per la produzione (è stato infatti utilizzato con successo nell’ultimo Indiana Jones) per invecchiare o ringiovanire i volti degli attori nelle immagini video.
Rete neurale addestrata usando un ampio set di immagini generato artificialmente
Disney ha osservato che sarebbe impossibile addestrare la rete neurale FRAN su un set di dati di persone reali. Ciò richiederebbe coppie di immagini che mostrino un soggetto con la stessa espressione facciale, posa, illuminazione e sfondo in due età diverse e note.
E allora? I ricercatori hanno creato un database composto da diverse migliaia di volti generati casualmente. Hanno invecchiato quei volti generati artificialmente utilizzando gli strumenti di invecchiamento esistenti basati sul machine learning quindi hanno passato i risultati dell’operazione a FRAN. La rete neurale ha analizzato ciascuna immagine “pronosticando” quali parti del viso possono verosimilmente essere interessate dal processo di invecchiamento. Questo approccio ha permesso a FRAN di far invecchiare il soggetto conservando i suoi tratti somatici identificativi e il suo aspetto complessivo, anche quando la testa o il viso si muovono o l’illuminazione cambia entro la medesima ripresa. Lo stesso schema è stato applicato anche per ringiovanire i soggetti che appaiono in un video, come nel caso dell’ultimo Indiana Jones.
FRAN assicura un reaging realistico e continuo in un intervallo di età compreso tra 18 e 85 anni. Osserva Disney: “per quanto ne sappiamo, FRAN è il primo metodo a fornire risultati di reaging ad alta risoluzione temporalmente stabili su video che mostrano volti in espressioni diverse e da diverse visuali“, indipendentemente da qualunque altro parametro, compresi quelli legati all’illuminazione della scena.
Consigliamo di vedere il contenuto dimostrativo condiviso da Disney Research su YouTube, che mette a confronto l’approccio classico con quello innovativo di FRAN al problema del reaging in video.
Cos’è una U-Net
Disney spiega che per arrivare alla realizzazione della sua FRAN, i tecnici hanno sfruttato una U-Net ovvero un’architettura di rete neurale convoluzionale (CNN) ampiamente utilizzata nell’ambito della segmentazione semantica delle immagini. Olaf Ronneberger, Philipp Fischer e Thomas Brox (Università di Friburgo) ne descrissero dettagliatamente il funzionamento già nel 2015.
Si chiama così perché la U-Net segue un percorso a forma di “U”: una procedura di downsampling riduce progressivamente la risoluzione dell’immagine attraverso blocchi convoluzionali e di pooling. A seguire, un meccanismo di upsampling ripristina la risoluzione originale dell’immagine attraverso blocchi di deconvoluzione e concatenazione.
I blocchi convoluzionali e di pooling sono componenti fondamentali delle CNN e sono responsabili dell’estrazione delle caratteristiche dell’immagine. In ogni strato convoluzionale, appositi filtri scansionano l’immagine pixel per pixel, producendo una mappa delle caratteristiche. I filtri si occupano di individuare pattern e caratteristiche locali nell’immagine. I blocchi di pooling riducono la dimensione spaziale delle informazioni raccolte ai passaggi precedenti riducendo il numero di parametri da gestire e catturando le informazioni più significative.
L’approccio scelto consente di pervenire a una segmentazione accurata dei dettagli sia a livello globale che locale. Come spiega Disney nel documento Production-Ready Face Re-Aging for Visual Effects, l’utilizzo di una U-Net ha permesso di raggiungere il risultato prefisso senza alcun bisogno di progettare e realizzare reti neurali più complesse.
FRAN ha permesso di ridurre il tempo necessario per il reaging delle persone ritratte nelle sequenze video da giorni e giorni a poche ore o, addirittura, a una manciata di minuti.
I limiti di FRAN
Sono i portavoce di Disney Research a descrivere le limitazioni di una rete neurale come FRAN. Sebbene rappresenti, di fatto, un punto di riferimento, come accade nelle tipiche architetture U-Net, i cambiamenti nelle immagini di grandi dimensioni sono più difficili da gestire e risulta molto più complesso generare un contenuto plausibile.
Come accennato in precedenza, inoltre, FRAN non è adatto per gestire il reaging di soggetti giovani: in importanti applicazioni (ricerca di bambini scomparsi), Disney ammette che altri metodi possono essere preferibili rispetto a quello proposto e utilizzato nell’ultimo Indiana Jones.
Un’altra limitazione è rappresentata dal fatto che l’ingrigimento dei capelli non è presente nel set di dati di addestramento e quindi non può riflettersi nei risultati producibili con FRAN. È probabile che quest’abilità venga aggiunta nel prossimo futuro ma al momento non è qualcosa che oggi è preso in considerazione.
Le attività di reaging possono anche introdurre variazioni nell’indice di massa corporea (BMI) i cui effetti sul volto non sono attualmente controllabili. Disney ritiene di riuscire a intervenire prossimamente anche su questi aspetti.