Grazie ai moderni Large Language Models (LLM) si sono compiuti enormi passi avanti nel settore dell’intelligenza artificiale, abilitando modalità di conversazione testuale (spesso multimodale, quindi con l’aggiunta di immagini e altri elementi multimediali) impensabili fino ad appena qualche tempo fa. Con il nuovo modello Spirit LM, Meta vuole essere diretta protagonista di un’ulteriore innovazione. L’idea è quella di accettare e gestire input sia testuali che vocali e di generare output vocale con espressioni emotive.
Spirit LM rappresenta un notevole avanzamento nell’integrazione del linguaggio scritto e parlato, superando le limitazioni dei tradizionali sistemi di riconoscimento vocale automatico (ASR) e sintesi vocale (TTS), che spesso non riescono a mantenere le sfumature espressive della voce.
Spirit LM: il nuovo modello Meta che gestisce input testuali e vocali senza ricorrere al text-to-speech
Sviluppato dal team FAIR (Fundamental AI Research) di Meta, Spirit LM è un modello open source che unifica il processo di elaborazione del testo e del parlato in un unico sistema, eliminando la necessità di trascrizione e conversione vocale separata.
A differenza degli approcci convenzionali, infatti, che prima trascrivono l’audio in testo e poi generano la voce finale tramite TTS (text-to-speech), Spirit LM gestisce direttamente l’input vocale e testuale, permettendo una maggiore fluidità e naturalezza nelle conversazioni vocali.
Funzionalità e dimostrazioni
Una delle dimostrazioni fornite da Meta mostra come Spirit LM sia in grado di ascoltare una sequenza vocale come “1 2 3 4 5” e generare automaticamente i numeri successivi.
Il modello può anche rispondere a domande testuali con risposte vocali dettagliate e generare voci umane cariche di espressività a seconda del prompt fornito. Ad esempio, in risposta alla frase “Non posso credere che se ne sia andata. Non so come affrontare la sua perdita. Il dolore è insopportabile, mi sento così perso senza di lei“, Spirit LM è in grado di restituire un’intonazione adeguata che esprime dolore e tristezza.
Altre dimostrazioni mostrano come il modello riesca a catturare emozioni come paura o ansia in frasi del tipo “Hai sentito quel rumore? Cos’è quel suono? Mi sento spaventato. È così buio, e quel rumore… suona davvero inquietante“.
Spirit LM rappresenta insomma la nuova frontiera nell’interazione uomo-macchina: aggiungendo la possibilità di ottenere risposte vocali in tempo reale e arricchendo soprattutto i modelli che usano l’approccio chain-of-tought per abilitare forme di riflessione sviluppate su più passaggi, l’IA così come l’abbiamo conosciuta fino ad oggi non sarà più la stessa.
Architettura e addestramento
Gli ingegneri di Meta parlano di un addestramento di Spirit LM eseguito con un metodo word-level interleaving. L’azienda fondata da Mark Zuckerberg fa riferimento a una tecnica di addestramento utilizzata per consentire la generazione intermodale, ossia l’integrazione e la generazione simultanea di testi e di discorsi (audio).
I dataset usati nella fase di addestramento, testo e voce, non sono separati, ma piuttosto intrecciati a livello di singole parole (da qui il termine word-level interleaving). Questo significa che durante il processo di addestramento, il modello vede sia parole scritte che parole pronunciate, in modo alternato o mescolato a livello di token (i componenti base del testo, come singole parole o parti di parole).
L’obiettivo di questa tecnica è permettere al modello di gestire informazioni provenienti da entrambi i formati (testo e voce) senza perderne l’espressività o il contesto. Normalmente, i modelli di linguaggio trattano il testo come input e la voce viene convertita in testo tramite il riconoscimento automatico del parlato (ASR, Automatic Speech Recognition). Tuttavia, questo approccio tradizionale spesso riduce la qualità del contenuto espresso nel parlato, come l’intonazione o il tono emotivo.
Spirit LM utilizza token fonetici per rappresentare la voce. Questi token rappresentano i suoni delle parole (fonemi), piuttosto che le parole scritte. La versione Expressive del modello aggiunge anche token di pitch e stile, che codificano informazioni sul tono emotivo del parlato (come emozioni di sorpresa, gioia, rabbia). Questo permette al modello di non solo comprendere il contenuto della voce ma anche generare parlato con espressioni appropriate, conservando le sfumature emotive e stilistiche presenti nell’audio originale.
Accesso e risorse
Meta ha reso disponibile per tutti il modello Spirit LM: basta inviare una richiesta tramite questo modulo per avere la possibilità di scaricarlo dai server dell’azienda. Il codice sorgente è invece disponibile su GitHub.
Con il rilascio di Spirit LM, Meta rafforza il suo impegno nello sviluppo di tecnologie di IA in grado di comprendere e produrre linguaggio naturale, spingendo i limiti dell’intelligenza artificiale verso una comunicazione più umana e interattiva.
Nella sua nota, Meta spiega di aver inoltre sviluppato altri modelli specializzati: Layer Skip, ad esempio, consente di ridurre i tempi di generazione senza richiedere hardware specializzato e Segment Anything Model 2.1 (SAM 2.1), progettato per la segmentazione di immagini. La segmentazione è il processo di suddivisione di un’immagine in diverse regioni, ciascuna delle quali rappresenta un oggetto o una parte dell’immagine che ha caratteristiche simili.
SALSA, inoltre, è un metodo che aiuta a validare la sicurezza per gli standard crittografici post-quantistici, rilevando debolezze sfruttabili dall’intelligenza artificiale; Meta Lingua, una piattaforma efficiente per l’addestramento dei modelli linguistici, che facilita la sperimentazione e la riproducibilità nella ricerca; Meta Open Materials 2024, un dataset open source per la scoperta di materiali inorganici; MEXMA, un encoder multilingue che migliora le rappresentazioni delle frasi utilizzando obiettivi a livello di token (copre ben 80 lingue).
Credit immagine in apertura: iStock.com – BlackJack3D