Si presenta con lo slogan Deep Fake Text to Speech: si tratta di FakeYou, un’applicazione Web che permette di generare file audio a partire da una serie di modelli vocali preconfezionati. Gli utenti possono scegliere tra circa 2.500 voci diverse e scrivere il testo da convertire in un file vocale per mezzo di un sistema text-to-speech (TTS).
Abbiamo già visto come modificare la voce e quali sono le sue principali caratteristiche.
Tutti sappiamo ormai che cosa sono i deep fake: addestrando l’intelligenza artificiale attraverso la fornitura di due dataset (il primo con il volto e le varie espressioni della persona da sostituire e il secondo con le informazioni sul soggetto da inserire nel video) si possono creare video fasulli che ad esempio ritraggono una persona in luoghi dove non è mai stata o in atteggiamenti mai tenuti prima.
I deep fake possono essere utilizzati per scopi goliardici, per intrattenere, per emozionare (si pensi al progetto Deep Nostalgia) ma talvolta, specie se ben realizzati, possono causare non pochi grattacapi quando realizzata per secondi fini.
Un deep fake può interessare anche la parte vocale andando a imitare la voce di un’altra persona. Non è una novità e la generazione di modelli vocali a partire da una serie di registrazioni audio di una persona si può fare ormai da anni.
FakeYou è un’applicazione che nasce e si sviluppa intorno a una comunità creata su Discord. Tanti creator vengono coinvolti per creare voci sintetizzate, o meglio il modello vocale che potrà poi essere utilizzato per mettere in bocca a soggetti più o meno famosi parole che non hanno mai detto.
La qualità dei risultati, va detto, lascia molto a desiderare: ciò che si ottiene scegliendo i profili di Giorgia Meloni, Silvio Berlusconi, Matteo Salvini, Gerry Scotti e così via è un file WAV contenente diverse incertezze e una voce che talvolta appare robotica o innaturale. Ovvio che i modelli vocali, col tempo, potrebbero essere incredibilmente affinati così da ottenere registrazioni audio che all’ascolto paiono del tutto plausibili.
“I deep fake sono impressionanti, forse un po’ spaventose, ma stanno per diventare la nuova normalità. Le persone si abitueranno alla tecnologia e i risultati verranno utilizzati principalmente per il bene della creatività sbloccando valori e competenze in sede di produzione che erano precedentemente irraggiungibili e costosi per i singoli creatori. Crediamo che la prossima Hollywood sarai tu“, si legge nella pagina di presentazione di FakeYou.
Come funziona FakeYou
Gli autori dell’applicazione Web non spiegano come funziona FakeYou, o almeno non lo fanno per filo e per segno.
Come abbiamo anticipato in apertura, però, la tecnologia alla base di progetti come FakeYou è nota da anni e gli addetti ai lavori se ne servono praticamente ogni giorno.
“Leggendo tra le righe” si apprende che FakeYou è basato su PyTorch. PyTorch è un framework per il machine learning basato sulla libreria Torch e utilizzato per applicazioni che sfruttano la visione artificiale e l’elaborazione del linguaggio naturale. È stato originariamente sviluppato da Meta AI ed è ora sotto l’ombrello della Linux Foundation. Il termine “Python” deriva dal fatto che proprio questo linguaggio di programmazione è usato come interfaccia per l’uso della libreria Torch.
NVidia stessa, azienda che ha investito moltissimo sulle tecnologie per l’intelligenza artificiale e sulle reti neurali, distribuisce Tacotron 2 ovvero degli strumenti che chiunque può utilizzare per creare i propri modelli vocali. Tacotron 2 si appoggia infatti su PyTorch ed è ottimizzato per la creazione di modelli vocali sfruttando un set di dati utilizzati per l’addestramento e la potenza computazionale delle moderne GPU.
Anche Alexa permette di imitare le voci dei propri cari: vi ricordate della storia del bambino a cui l’assistente digitale leggeva una favola utilizzando la voce della nonna defunta, a cui il piccolo era tanto legato? Secondo Amazon basta sottoporre ad Alexa un breve spezzone del parlato (circa un minuto; la voce può essere anche registrata) perché l’assistente digitale sia in grado di esprimersi liberamente usando le caratteristiche vocali di un qualunque individuo. Il concetto è esattamente lo stesso.
E ricordiamo, tra i tanti disponibili, anche i servizi cognitivi di Microsoft Azure che permettono di creare voci addestrando una rete neurale.
Gli autori di FakeYou e delle altre piattaforme simili hanno utilizzato i modelli generati per allestire un’applicazione aperta a chiunque. È stato fatto qualcosa di fuori legge? Troppo presto per dirlo. Sicuramente non è possibile non osservare che è difficile chiamare in causa lo “strumento” (ci riferiamo a qualunque tool che permette di generare modelli vocali personalizzati): la responsabilità è eventualmente di chi usa le registrazioni per finalità illegittime.
L’intervento del Garante Privacy
Nel frattempo il Garante Privacy vuole vederci chiaro e ha comunicato di aver aperto un’istruttoria su FakeYou.
“Le preoccupazioni del Garante si indirizzano verso i potenziali rischi che potrebbero determinarsi da un uso improprio di un dato personale, quale è appunto la voce. L’Autorità ha dunque chiesto alla società “The Storyteller Company – Fakeyou” di trasmettere con urgenza ogni possibile elemento utile a chiarire l’iniziativa“, si legge nel comunicato pubblicato sul sito dell’Autorità.
Alla società che ha sviluppato FakeYou viene anche chiesto di fornire le modalità di “costruzione” della voce dei personaggi famosi, il tipo di dati personali trattati e le finalità del trattamento dei dati riferiti ai personaggi noti e agli utenti che utilizzano l’app.
Dovrà inoltre essere specificata l’ubicazione dei data center che archiviano i dati personali, sia con riferimento agli utenti registrati dall’Italia, sia ai personaggi noti, e le misure tecniche ed organizzative adottate per garantire un livello di sicurezza adeguato al rischio.