Poco più di un anno fa vi abbiamo parlato di FakeApp, un’applicazione che permette di produrre video fasulli alterando il volto di una persona e sostituendolo con quello di un’altra: FakeApp, cos’è e come funziona in breve l’app per creare video fasulli.
Oltre alle fake news (vedere Fake news: cosa sono, come riconoscerle e perché sono diventate un problema), è bene tenere presente che in futuro potrebbero proliferare in rete anche contenuti video creati ad arte, video che le persone ritratte non hanno mai girato.
Lo ha dimostrato in questi giorni un gruppo di ricercatori – ingegneri del Samsung AI Center e rappresentanti dello Skolkovo Institute of Science and Technology (Russia) – che ha pubblicato un interessantissimo studio accademico sull’argomento.
I ricercatori hanno mostrato che usando l’intelligenza artificiale è possibile arrivare a produrre un video che rappresenta il volto di qualunque persona simulando le espressioni facciali e i movimenti del viso.
Per rendere ancora più palesi le potenzialità dell’algoritmo messo a punto da Samsung e dai collaboratori russi, partendo da un semplice dipinto o una foto d’epoca, si è dato virtualmente nuova vita ad Albert Einstein, Salvador Dalì, Marilyn Monroe, Fëdor Dostoevskij e, addirittura, alla Gioconda ritratta da Leonardo da Vinci.
Il sistema appena presentato consente di creare modelli 3D realistici che ritraggono testa e volto di qualunque individuo: si tratta di rappresentazioni dinamiche che in alcuni casi appaiono davvero molto precise e indistinguibili dai video originali.
Ovviamente più foto statiche si passano all’intelligenza artificiale, migliore sarà il risultato finale ma è possibile usare anche un’unica foto, come si spiega nel video che ripubblichiamo di seguito.
Nel caso di specie Samsung e gli altri esperti hanno utilizzato un set di tre reti neurali, ciascuna impegnata a elaborare un differente insieme di informazioni. Una prima rete, ad esempio, esamina i vari frame a disposizione, estrae le caratteristiche del volto e le combina creando un modello basato sull’impiego di vettori.
Le informazioni così raccolto vengono ulteriormente affinate da una seconda rete neurale che si occupa di produrre un modello “sintetizzato”. Esso viene passato in ultima battuta a un’altra rete che confronta ogni frame generato con quelli originali scartando le immagini poco realistiche e cercando così di preservare l’identità del soggetto ritratto nel video.
Nel caso di persone per le quali si avessero a disposizione poche foto statiche, addestrando adeguatamente il modello usato per il machine learning, è comunque possibile generare video convincenti che sembrano ritrarre davvero il soggetto reale.
Questi sistemi, con la possibilità – per tutti – di effettuare elaborazioni pesanti in breve tempo usando i servizi cloud e appoggiandosi a GPU sempre più potenti, potrebbero certamente favorire la nascita di video fake ma possono essere comunque usati anche in diversi campi applicativi come quelli legati alla telepresenza. Quello generabile è di fatto un avatar della propria persona, un modello 3D dinamico veramente dettagliato.