Gli esperti della divisione Google che si occupa di soluzioni per l’intelligenza artificiale ha appena tolto il velo da Translatotron, uno strumento che consente di effettuare una traduzione vocale istantanea da una lingua all’altra senza alcun passaggio intermedio.
Abbiamo già visto gli enormi passi in avanti che, proprio grazie al machine learning sono stati compiuti dai migliori traduttori online (ne abbiamo parlato, per esempio, nell’articolo Miglior traduttore inglese italiano e nel successivo Google Traduttore preciso anche se utilizzato da un foglio elettronico).
Con Google Translatotron si volge lo sguardo verso una nuova frontiera: la traduzione vocale immediata da una lingua all’altra ricorrendo a un modello end-to-end speech-to-speech.
“La macchina” di solito suddivide il processo di traduzione delle conversazioni orali in tre fasi: in prima battuta il motore speech-to-text interpreta il parlato e lo trasforma in testo scritto; si passa quindi alla traduzione nella lingua dell’altro interlocutore; si conclude con la riproduzione del testo tradotto da parte di un sintetizzatore text-to-speech.
Gli ingegneri di Google stanno lavorando su un sistema più “naturale”, Translatotron appunto, che non necessita di passaggi intermedi.
L’interpretazione del parlato in tempo reale non è cosa nuova: Google ne fa già ampio utilizzo nel suo assistente digitale oltre che nell’app Traduttore per i dispositivi mobili: Traduttore vocale: quali sono i migliori.
Un approccio simile è utilizzato anche da Microsoft per tradurre in simultanea le conversazioni effettuate servendosi di Skype.
Con Translatotron il processo di traduzione diventa ancora più veloce ed efficace riuscendo addirittura a conservare la tonalità della voce del primo interlocutore il cui parlato viene tradotto nell’altra lingua.
Come si può verificare ascoltando gli esempi pubblicati sul blog di Google AI e in questa pagina, Translatotron mantiene ove possibile anche le interiezioni.
Google precisa che Translatotron è da considerarsi ancora come un esperimento nonostante siano già stati compiuti enormi progressi. I prossimi passaggi consisteranno nel rendere meno artificiali le voci sintetizzate così da migliorare significativamente le traduzioni vocali speech-to-speech.