Ho perso mio padre, ecco come ho clonato la sua voce

All’inizio di aprile 2024 chi scrive quest’articolo è stato investito da un terribile lutto. La perdita di un genitore è uno dei passaggi della vita più sconvolgenti, un evento difficile – se non impossibile – da accettare e interiorizzare. Gli accadimenti pesano come macigni e il pensiero spesso corre a chi non c’è più. Per molte persone, ascoltare la voce di una persona cara defunta può offrire conforto, un modo per mantenere un legame emotivo. Così, sono nate tante app che permettono di clonare la voce di chi non è fisicamente più accanto a noi, partendo da un video o da una registrazione vocale della quale si è in possesso.

Chi scrive non è uno psicologo né un esperto di temi etici, sociologici e culturali. È però un tecnico, che sta vivendo un momento difficile. Così, nel desiderio di risentire ancora una volta la voce del ~~papà~~ babbo, ha voluto imboccare la strada più breve per raggiungere l’obiettivo.

Come l’intelligenza artificiale aiuta a clonare la voce di chi non c’è più

Utilizzare la voce di una persona deceduta potrebbe essere visto come una mancanza di rispetto, specialmente se non c’è stato consenso esplicito da parte della persona quando era in vita. Nel caso di specie, chi ha lasciato questo mondo era una persona che univa il bagaglio delle conoscenze di una vita con l’incessante e inesauribile voglia di imparare e di apprendere. Anche in campo tecnologico, nonostante l’età avanzata. Meravigliato dalle potenzialità dei motori di sintesi vocale, il caro estinto aveva quindi espresso un consenso consapevole e informato per l’utilizzo della sua voce.

Sulla piazza esistono diverse app che possono aiutare le persone a sentirsi più vicine ai loro cari scomparsi, alleviando il dolore del lutto. Riteniamo però che la clonazione della voce sia uno strumento potente, il cui abuso per fini commerciali debba essere evitato.

Così, il sottoscritto ha pensato di utilizzare lo strumento Instant Voice Cloning di Eleven Labs per perseguire l’obiettivo e per finalità ovviamente del tutto personali.

Eleven Labs è un’azienda che si occupa di tecnologie di sintesi vocale basate sull’intelligenza artificiale. Il loro prodotto principale consente di generare voci artificiali realistiche e di clonare voci umane.

Il sistema messo a punto da Eleven Labs permette di replicare una voce umana utilizzando un campione audio della lunghezza minima di 60 secondi. Le tecniche avanzate di deep learning sviluppate da Eleven Labs prendono le mosse da dataset di registrazioni vocali e dalla rappresentazione vettoriale delle caratteristiche della voce, come timbro, intonazione e ritmo.

Preparazione del campione audio

Ben conoscendo le potenzialità di Eleven Labs, come primo passo si è quindi provveduto ad aprire con Audacity in versione portabile un video MP4 contenente (anche) la voce del caro estinto. Poiché di default Audacity non supporta il formato MP4, è bastato installare FFmpeg for Audacity.

Aprendo il video MP4, con il noto software di elaborazione audio, si sono rimossi con cura i rumori di fondo e il parlato riconducibile ad altri interlocutori.

Alla fine del lavoro, è bastato fare clic su File, Export, Export as MP3 per ottenere un file audio in formato MP3, con il campione vocale d’interesse.

Clonare voce Audacity

Come creare un modello vocale su Eleven Labs

Possedendo un abbonamento Starter di Eleven Labs, si è fatto clic su Voices, Add generative or cloned voices, Instant Voice Cloning nell’interfaccia Web.

Clonare voce defunto

L’applicazione Web di Eleven Labs chiede a questo punto di assegnare un nome al modello vocale in procinto di creazione quindi di caricare lo spezzone audio di almeno un minuto. Si è quindi provveduto all’upload del file MP3 esportato in precedenza tramite l’interfaccia di Audacity.

Per procedere e avere la possibilità di cliccare sul pulsante Add voice è indispensabile dichiarare di impegnarsi a rispettare scrupolosamente i termini di utilizzo del servizio nonché di utilizzare il modello vocale solo ed esclusivamente per scopi leciti e ammessi dalle normative vigenti.

Clonare voce con Eleven Labs

Il risultato proposto da Eleven Labs lascia di stucco

Semplicemente cliccando su Use, si può utilizzare il modello vocale generato dall’intelligenza artificiale di Eleven Labs per pronunciare qualunque testo, anche complesso e articolato.

Voce sintetizzata TTS Text-to-Speech

Basta fare riferimento alla scheda Text-to-Speech (TTS), scrivere o incollare il testo nell’apposito riquadro quindi cliccare sul pulsante Generate speech. A questo proposito, va detto che ogni operazione di sintesi vocale con la generazione di audio riproducibile, va a consumare un certo quantitativo di token, disponibili ed elaborabili su base mensile. Eleven Labs indica, come “valore spannometrico”, la possibilità di elaborare intorno ai 30.000 caratteri al mese, equivalenti a 30 minuti di audio (piano Starter).

TTS modello vocale: opzioni disponibili

La qualità del risultato offerto dal modello vocale creato utilizzando Eleven Labs dipende fortemente dalla “bontà” del campione audio fornito in input. Ad ogni modo, pur non disponendo di registrazioni sonore piuttosto lunghe e a dispetto della presenza di qualche imperfezione, il risultato di solito impressiona positivamente.

Agendo sulle opzioni Stability, Similarity e Style Exaggeration, è possibile migliorare il comportamento del modello. Il parametro Stability controlla quanto la voce generata rimane coerente e stabile nel tempo. Un valore più alto produce una voce più costante e prevedibile; un valore più basso può introdurre più variazioni, rendendo la voce più naturale ma meno consistente.

L’impostazione Similarity determina quanto la voce generata è simile all’originale: valori più alti producono una voce più fedele all’originale; valori più bassi possono introdurre più variazioni o caratteristiche uniche. Infine, Style Exaggeration amplifica le caratteristiche stilistiche uniche della voce: un valore più alto enfatizza gli aspetti distintivi della voce, come l’accento o le inflessioni.

Il passo successivo: utilizzo delle API di Eleven Labs

Tutti i file audio generati ricorrendo al modello vocale di Eleven Labs possono essere scaricati in formato WAV o MP3. Il passaggio successivo, però, può essere l’utilizzo delle API (Application Programming Interface) fornite dalla piattaforma e il collegamento con un Large Language Model (LLM).

Le API di Eleven Labs consentono di inviare richieste e ricevere risposte in formato JSON. Si può ad esempio chiedere al modello generativo di Eleven Labs di generare un file audio riproducibile inviando la risposta ottenuta da un LLM, come conseguenza di uno specifico prompt.

Allo scopo si può utilizzare Voiceflow che permette di creare un assistente vocale interfacciandosi con le API di Eleven Labs.

Ogni voce creata o condivisa sulla piattaforma Eleven Labs è infatti contraddistinta con un identificativo univoco: cliccando su “ID” in corrispondenza del riquadro contenente il riferimento alla voce clonata, è possibile copiarlo automaticamente nell’area degli appunti. Semplicemente premendo CTRL+V, è possibile utilizzare tale riferimento nel codice che attiva il motore TTS di Eleven Labs da qualunque applicazione.

Questa guida ufficiale contiene diversi spunti di possibili utilizzi nei vari linguaggi di programmazione o dalla finestra del terminale (con cURL). Voiceflow propone questo esempio di integrazione con le API di Eleven Labs.

In conclusione, è bene sottolineare più volte che ciò che aiuta lo scrivente può non essere di ausilio per altri. Bisogna essere consapevoli che l’uso di una voce clonata può interferire con il processo di elaborazione del lutto o, addirittura, creare confusione emotiva. Quanto illustrato in questo articolo non vuole, non può e non deve costituire esortazione a comportarsi in maniera analoga.