Il progetto realizzato da un gruppo di ricercatori dell’Università della California è la prova provata di come l’intelligenza artificiale, se utilizzata correttamente, possa rivestire un ruolo cruciale nel miglioramento delle nostre vite.
Con la collaborazione della signora Ann, canadese, vittima di un devastante ictus al tronco encefalico presentatosi all’età di 30 anni, gli accademici sono riusciti nell’ambizioso intento di consentire alla paziente di tornare a comunicare, con la parole e con la mimica facciale.
Per la prima volta, sia il linguaggio parlato che le espressioni facciali vengono sintetizzate a partire dalla “lettura” dei segnali cerebrali e riprodotti tramite un avatar visualizzato sullo schermo di un computer. Il sistema decodifica i segnali cerebrali e li traduce in testo al ritmo di quasi 80 parole al minuto: non sono ancora possibili discussioni veloci ma la pietra miliare appena posta è una vera e propria rivoluzione rispetto a tutto quanto disponibile fino ad oggi.
Come spiegano i responsabili del progetto, le performance dell’innovativa interfaccia uomo-macchina in fase di sviluppo, possono adesso evolvere rapidamente. L’obiettivo è quello di realizzare una soluzione disponibile su larga scala che possa permettere alle persone nelle stesse condizioni della signora Ann, di comunicare con i familiari e in generale con chi è nelle immediate vicinanze.
Edward Chang, responsabile di neurochirurgia presso UCSF (Università della California, San Francisco), ha lavorato sulla tecnologia nota come interfaccia cervello-computer o BCI (Brain-computer interface) da oltre un decennio. Egli spera che i progressi appena compiuti (pubblicati sulla rivista Nature il 23 agosto 2023) portino presto alla definizione di una soluzione approvata dalle Autorità sanitarie.
Intelligenza artificiale per superare la sindrome locked-in
Chi, in conseguenza di un ictus, si trova ad affrontare la sindrome locked-in è in uno stato in cui i sensi funzionano ma tutti i muscoli risultano bloccati. Ann, con il tempo, ha imparato a respirare di nuovo da sola, a muovere di nuovo il collo, pianti e risate sono tornati, può strizzare l’occhio e addirittura abbozzare alcune parole. La condizione di altri pazienti, tuttavia, è purtroppo ancora peggiore.
Per questo motivo le interfacce uomo-macchina sono essenziali: “voglio che altre persone mi vedano e sappiano che le loro vite non sono finite. Voglio mostrare loro che le disabilità non devono fermarci o rallentarci“, ha commentato Ann confermando il suo pieno supporto nel progetto portato avanti in collaborazione con gli studiosi di UCSF.
Il team del dottor Chang è riuscito a dare un senso ai segnali cerebrali di Ann attivando il riconoscimento della ricchezza del linguaggio parlato e dei movimenti che animano il volto di una persona durante una conversazione.
Per raggiungere l’obiettivo con successo, gli esperti hanno impiantato un sottile rettangolo composto da 253 elettrodi sulla superficie del cervello di Ann, in corrispondenza delle aree precedentemente scoperte come cruciali per il linguaggio. Gli elettrodi rilevano i segnali cerebrali che, se non fosse stato per l’ictus, sarebbero stati girati ai muscoli delle labbra, della lingua, della mandibola e della laringe di Ann, così come al suo volto. Un cavo collegato a un connettore posto esternamente, sulla testa, mette in comunicazione gli elettrodi con un computer.
Addestramento degli algoritmi di intelligenza artificiale per la decodificare dei segnali cerebrali
Per settimane, Ann ha collaborato con il team al fine di addestrare gli algoritmi di intelligenza artificiale a riconoscere l’unicità dei suoi segnali cerebrali e rilevare le caratteristiche intrinseche connesse con il linguaggio. La paziente ha ripetuto con la mente diverse frasi contenute in un vocabolario conversazionale composto da 1.024 parole più e più volte finché il computer non ha riconosciuto i modelli di attività cerebrale associati a tutti i suoni di base del linguaggio.
Decodifica dei fonemi da parte del computer
Invece di addestrare l’IA a riconoscere intere parole, i ricercatori hanno creato un sistema che decodifica le parole da componenti più piccoli chiamati fonemi. Si tratta delle sotto-unità del linguaggio che formano le parole pronunciate nello stesso modo in cui le lettere formano le parole scritte. La parola in inglese “Hello“, ad esempio, contiene i quattro fonemi “HH,” “AH,” “L” e “OW”. Utilizzando questo approccio, il computer ha dovuto “imparare” solamente 39 fonemi per decifrare qualsiasi parola inglese. Ciò ha permesso di migliorare sia l’accuratezza del sistema che la sua velocità.
Sintesi vocale
Come “ciliegina sulla torta”, un team specializzato ha poi provveduto a sintetizzare la voce di Ann utilizzando le informazioni raccolte da un video del suo matrimonio, risalente al 2005. Come abbiamo spiegato nell’articolo su come modificare la voce, le peculiarità del parlato sono infatti piuttosto semplici da riprodurre in digitale, soprattutto oggi che è possibile fare affidamento sui moderni modelli generativi.
Modellazione dei movimenti dei muscoli facciali
Mentre Ann “pensa le risposte”, l’interfaccia uomo-macchina provvede a decodificarle quindi a riprodurle sullo schermo di un computer attraverso un avatar e una voce sintetizzata che corrisponde a quella della paziente. L’avatar riesce addirittura a simulare e ad animare i movimenti muscolari del volto, grazie alla tecnologia sviluppata da Speech Graphics, azienda specializzata proprio in questo settore.
Un passo importante che sarà sviluppato più avanti, consiste nella realizzazione di una versione wireless dell’interfaccia che eviterà qualunque connessione via cavo al computer.
Per Ann, contribuire allo sviluppo della tecnologia ha rappresentato un vero cambiamento di vita. “Quando ero in ospedale per la riabilitazione, lo specialista del linguaggio non sapeva cosa fare con me“, ha risposto Ann a una domanda rivoltale proprio con il sistema appena presentato. “Fare parte di questo studio mi ha dato uno scopo, sento di poter contribuire all’evoluzione della società. E sembra che io abbia di nuovo un lavoro“.