Meta dimostra di voler spingere sempre più l’acceleratore sui modelli generativi innovativi e dopo aver contribuito a dare un forte impulso allo sviluppo di progetti open source guidati dalla comunità con il suo LLaMa (Large Language Model Meta AI), adesso la società di Mark Zuckerberg scuote di nuovo il mondo delle soluzioni per l’intelligenza artificiale con un nuovo progetto.
Si chiama Massively Multilingual Speech (MMS) ed è un modello in grado di riconoscere oltre 4.000 lingue parlate e generare audio grazie alla sintesi vocale in oltre 1.100 lingue. Come la maggior parte delle proposte Meta che riguardano l’intelligenza artificiale, MMS è uno strumento open source che si prefigge come obiettivo quello di preservare la diversità linguistica e incoraggiare i ricercatori a servirsene per realizzare applicazioni innovative.
I modelli di riconoscimento e sintesi vocale presuppongono un’intensa fase di apprendimento su migliaia di ore di audio con etichette di trascrizione associate. Le etichette sono fondamentali per l’apprendimento automatico, consentendo agli algoritmi di classificare e “comprendere” correttamente i dati.
Le lingue che non sono ampiamente utilizzate nelle nazioni industrializzate, rischiano di scomparire nei prossimi decenni e per queste non esistono dati a sufficienza utilizzabili per addestrare il modello generativo. Meta ha quindi utilizzato un approccio non convenzionale per la raccolta di dati audio attingendo a registrazioni sonore di testi religiosi tradotti. “Ci siamo rivolti a testi religiosi, come la Bibbia, che sono stati tradotti in molte lingue diverse e le cui traduzioni sono state ampiamente studiate per la ricerca sulla traduzione linguistica basata su testo“, ha affermato la società. “Queste traduzioni hanno registrazioni audio pubblicamente disponibili di persone che leggono questi testi in diverse lingue“. Incorporando le registrazioni non classificate della Bibbia e di altri testi simili, i ricercatori di Meta hanno aumentato le lingue disponibili e accessibili attraverso il modello a oltre 4.000.
Sebbene il contenuto delle registrazioni audio sia religioso, le analisi svolte dai tecnici di Meta dimostrano che ciò non pregiudica il funzionamento del modello per produrre ogni genere di testo. Inoltre, nonostante la maggior parte delle registrazioni religiose fossero lette da oratori uomini, questo aspetto non ha introdotto alcuno sbilanciamento consentendo al motore di sintesi l’adattamento automatico e la produzione di voci femminili.
Nella pagina GitHub di MMS, Scaling Speech Technology to 1000+ languages, si trovano i modelli preaddestrati con 300 milioni e 1 miliardo di parametri, le versioni ottimizzate dei vari modelli e i codici ISO di tutte le lingue supportate.
Confrontando MMS con Whisper di OpenAI, la soluzione messa a punto dagli ingegneri di Meta ha superato le più rosee aspettative: i modelli addestrati sui dati di MMS evidenziano la metà del tasso di errore con MMS che offre una copertura 11 volte più ampia, in termini di lingue supportate, rispetto alla proposta di OpenAI.
Il nuovo MMS può essere utilizzato in molteplici applicazioni: per la trasformazione da parlato a testo scritto (speech-to-text) e viceversa (text-to-speech) oltre che in tanti altri campi.
Ovviamente esiste sempre il rischio che il modello di sintesi vocale possa trascrivere in modo errato determinate parole o frasi, ma ciò è un problema piuttosto comune per questi sistemi basati sull’intelligenza artificiale.
Meta vede un mondo in cui la tecnologia assistiva, la sintesi vocale e persino la realtà virtuale e aumentata consentano a tutti di parlare e imparare nella propria lingua madre. “Auspichiamo una realtà nella quale la tecnologia possa incoraggiare le persone a mantenere vive le loro lingue poiché possono accedere alle informazioni e utilizzare ogni strumento usando proprio la loro lingua preferita“, scrive Meta, abbattendo automaticamente ogni barriera in un’ottica sempre più inclusiva.
Per approfondire e raccogliere maggiori dettagli su MMS, è possibile fare riferimento al post pubblicato sul blog di Meta.