I grandi modelli linguistici, altrimenti detti LLM, sono difficili da comprendere senza essere esperti di IA. ChatGPT, il chatbot di OpenAI, anche nella versione basata sul modello GPT-2 (“lontano” predecessore di GPT-4) nasconde molti misteri e, con l’intento di aiutare i ricercatori nell’anticipazione dei possibili problemi riguardanti il comportamento dei moderni sistemi basati sull’intelligenza artificiale, la stessa organizzazione di Sam Altman ha iniziato a lavorare su uno strumento per comprendere in profondità i modelli di linguaggio, identificando quali porzioni sono responsabili di determinati output.
Dalla mattina di oggi, 10 maggio 2023, la prima bozza di codice funzionante è disponibile su GitHub e può essere sfruttata attivamente, ma non è così semplice. In attesa che gli esperti sperimentino tale soluzione, OpenAI ha tentato di illustrarne il funzionamento in termini più abbordabili dal più vasto pubblico: proprio come il cervello, un modello di linguaggio (in questo caso GPT-2) è costituito da “neuroni”, i quali osservano uno schema di attivazione specifico nel testo per poi prodigarsi per cercare connessioni tra uno o più temi e arrivare infine a fornire la risposta definitiva.
Ad esempio, ponendo un input con la parola chiave “dollari” il modello di linguaggio parte in un viaggio dalla definizione base verso livelli sempre più distanti: dal mero collegamento al denaro e a sinonimi colloquiali, tramite i neuroni arriva a qualsiasi termine usato per menzionare gli Stati Uniti o parole correlate all’aggettivo “americano”.
Lo strumento di OpenAI, pertanto, scompone una sequenza di testo in più pezzi singoli, trovando una spiegazione preliminare in linguaggio naturale per ciò che il modello di linguaggio sta facendo durante l’interpretazione dell’input. Un trattazione più tecnica è stata condivisa da OpenAI in un documento dal titolo Language models can explain neurons in language models.
Ma quale può essere la sua effettiva utilità? Secondo gli sviluppatori, strumenti come questo potrebbero essere utilizzati per migliorare le prestazioni di un LLM eliminando pregiudizi e informazioni false.
Al momento questo codice preliminare opera esclusivamente con il modello di linguaggio GPT, ma è stato realizzato pensando anche ad altri LLM, concepiti da altri colossi del settore: “speriamo che possa aprire una strada promettente per affrontare l’interpretabilità in modo automatizzato, su cui altri possano costruire e contribuire“, ha dichiarato Jeff Wu di OpenAI.