Deep Live Cam, per creare video con il volto di un'altra persona basta una foto

Vi ricordate quando parlavamo della minaccia rappresentata dai deepfake? Ecco, nel giro di poco tempo, quella è già preistoria. Un software libero, distribuito sotto licenza GNU GPLv3, chiamato Deep Live Cam consente di realizzare qualcosa che fino al recente passato sembrava impensabile. L’applicazione permette di avviare una sessione di streaming video, eventualmente registrabile, sostituendo il proprio volto con quello di un’altra persona. Non pensate a risultati approssimativi e artificiosi: la qualità del video generato in tempo reale incanta e il software è capace di generare qualsiasi espressione facciale, seguendo le movenze dell’utente che sta creando il video. Agghiacciante? Sì, lo è.

Guardate questa dimostrazione pubblicata su X: Deep Live Cam ha permesso di generare un flusso video, assolutamente credibile, con i volti di Hugh Grant, Mark Zuckerberg, George Clooney e JD Vance. Il tutto partendo da una sola immagine statica di ciascun personaggio famoso.

Deepfake test Deep Live Cam

L’immagine è un deepfake generato in tempo reale da Deep Live Cam (fonte: joao, X).

Perché nasce Deep Live Cam

Gli autori di Deep Live Cam spiegano di aver sviluppato il software con l’obiettivo di supportare gli artisti nelle loro realizzazioni creative. Grazie a questo software, è possibile “animare” un volto statico, in tempo reale. Un approccio ideale per chi lavora nel campo dell’animazione, del design, della moda e in altri settori creativi.

Un designer potrebbe utilizzare Deep Live Cam per visualizzare un capo d’abbigliamento su un modello virtuale, apportando modifiche istantanee e migliorando così l’efficienza del processo creativo.

Gli sviluppatori di Deep Live Cam si dichiarano pienamente consapevoli dei potenziali utilizzi non etici. Per questo motivo, il team di sviluppo ha implementato una serie di controlli interni progettati per prevenire l’uso improprio del programma.

Dal canto loro, gli utenti sono tenuti a rispettare le leggi locali e ad utilizzare il software in modo etico. Se si utilizza il volto di una persona reale, è necessario ottenere il consenso esplicito della persona interessata e specificare chiaramente che il contenuto creato è un deepfake, allorquando dovesse essere condiviso online.

Configurazione hardware

Se si intende eseguire Deep Live Cam solo con la CPU, senza l’accelerazione garantita GPU, le prestazioni saranno mediocri, ma il software funzionerà comunque su una configurazione di base.

Per iniziare bastano quindi un processore moderno multi-core (Intel i5/i7 o AMD Ryzen 5/7), almeno 8 GB di RAM (consigliati 16 GB), almeno 10-20 GB di spazio libero su disco.

Per ottenere prestazioni significativamente migliori, soprattutto durante l’elaborazione video o l’uso della modalità webcam in tempo reale, è altamente consigliato servirsi una GPU dedicata con supporto CUDA (NVIDIA GeForce RTX 20xx/30xx o superiori).

L’utilizzo dell’accelerazione gestita tramite GPU, prevede una serie di requisiti hardware-software aggiuntivi:

NVIDIA CUDA Toolkit 11.8: Necessario per l’accelerazione con GPU NVIDIA.
Supporto CoreML (macOS): Disponibile sui dispositivi Apple con chip M1/M2; richiede macOS aggiornato.
DirectML (Windows): Supportato in Windows 10/11 per l’accelerazione GPU.
OpenVINO Execution Provider (Intel): Specifico per accelerare l’esecuzione su GPU Intel; richiede l’installazione del toolkit OpenVINO.

Installazione del software

Per utilizzare Deep Live Cam, è necessario seguire una serie di passaggi tecnici. L’installazione può essere effettuata su diverse piattaforme. Vi rinviamo alla documentazione ufficiale, condivisa nel repository GitHub, ma riassumiamo di seguito le semplici operazioni da svolgere:

Impostazione della piattaforma: Installare Python (consigliata la versione 3.10), pip, git, ffmpeg e i runtime di Visual Studio 2022 (nel caso di Windows).
Clonare il repository: Copiare il codice sorgente da GitHub utilizzando il comando git clone.
Scaricare i modelli: Due file modello (GFPGANv1.4 e inswapper_128_fp16.onnx) devono essere posizionati nella cartella models.
Installazione delle dipendenze: Si consiglia di utilizzare un ambiente virtuale (venv) per evitare conflitti. Installare le dipendenze con pip install -r requirements.txt.

Coloro che desiderano sfruttare l’accelerazione GPU, sono chiamati a seguire istruzioni aggiuntive per l’installazione di specifici componenti come CUDA per la piattaforma NVIDIA, CoreML per Apple Silicon, DirectML per Windows e OpenVINO per Intel.

Utilizzo di Deep Live Cam e modalità webcam

Dopo aver concluso con successo l’installazione di Deep Live Cam, per usare il software è sufficiente avviarlo usando il comando python run.py.

Deep LIve Cam modalità Webcam

Si apre una finestra che consente di selezionare un’immagine di un volto e un’immagine o “video target” su cui sostituire il volto. Una volta conclusa la procedura, Deep Live Cam inizia a elaborare i frame in tempo reale, creando il file di output nella cartella indicata.

Deep Live Cam offre anche una modalità webcam che consente di utilizzare il volto selezionato in tempo reale e applicarlo su una trasmissione video. Dopo aver selezionato il viso, basta cliccare su “Live” e attendere alcuni secondi per visualizzare l’anteprima. Per trasmettere il flusso multimediale, è possibile utilizzare software di cattura dello schermo come OBS Studio.

Demo Deep Live Cam

L’immagine è tratta da questa GIF dimostrativa.

I problemi introdotti dalle tecnologie di face swapping

Un software come Deep Live Cam consente di effettuare, molto semplicemente, operazioni di face swapping. Questo significa che aiuta a sostituire, in maniera banale, il volto di una persona con quello di un’altra. Dopo la generazione di modelli vocali utilizzando soluzioni basate sull’intelligenza artificiale, a partire da pochi secondi di audio registrato (abbiamo parlato di Eleven Labs in questo articolo…), cade oggi un altro tabù.

E gli autori mettono le mani avanti spiegando che, se richiesto dalle Autorità, Deep Live Cam potrebbe essere interrotto o i risultati generati potrebbero includere watermark per garantire la tracciabilità e la trasparenza.

La facilità d’uso e l’accessibilità di queste tecnologie aumentano il potenziale di abusi: dalle frodi finanziarie alla diffamazione, fino alla manipolazione politica.

Credit immagine in apertura: iStock.com – Siarhei Khaletski