Scatola nera di un modello generativo aperta per la prima volta: Anthropic svela i segreti

Sfide scientifiche

Tradizionalmente, un modello generativo utilizzato nelle applicazioni di intelligenza artificiale è sempre trattato come una “scatola nere” (black box in inglese). Inseriti dei dati in ingresso (prompt o input), il modello effettua internamente delle elaborazioni quindi produce un output. Il motivo per cui il modello generi una particolare risposta piuttosto che un’altra, tuttavia, non è palese. In un altro articolo abbiamo provato a spiegare il funzionamento di un LLM (Large Language Model) senza usare la matematica.

Fondata nel 2021 da alcuni ex dipendenti OpenAI, Anthropic è l’azienda “in grande spolvero” che ha portato in Italia l’intelligenza artificiale Claude. L’ultima incarnazione del modello, Claude 3 è stata descritta fin dal primo momento come in grado di evidenziare prestazioni superiori rispetto ai principali concorrenti come ChatGPT di OpenAI e Gemini di Google.

È però Anthropic stessa ad accendere un faro su un aspetto spesso lasciato in secondo piano. Se i modelli sono pensati solo come scatole nere, come è possibile fidarsi ciecamente della loro sicurezza? Se non sappiamo come funzionano, come possiamo garantire che non producano risposte dannose, influenzate da pregiudizi, non veritiere o pericolose? La necessità di una maggiore trasparenza è evidente.

Il primo studio sul comportamento dei modelli generativi è di Anthropic

Nel campo dell’intelligenza artificiale, la comprensione del funzionamento interno dei LLM rappresenta una sfida complessa. Gli ingegneri di Anthropic spiegano di aver recentemente realizzato uno studio volto a individuare come milioni di concetti siano rappresentati all’interno di Claude Sonnet, uno dei modelli di linguaggio di ultima generazione della società.

Il lavoro svolto da Anthropic (che vi invitiamo a consultare) si propone, di fatto, come la prima analisi dettagliata di un modello di intelligenza artificiale moderno e usato in produzione. L’obiettivo non è soltanto quello di infondere consapevolezza negli utenti finali, ma anche aprire nuove strade per rendere i modelli più sicuri e affidabili.

Guardare all’interno del modello generativo

I tecnici di Anthropic spiegano che dare un’occhiata al contenuto della “scatola nera” non è sufficiente. Gli elementi che il modello elabora prima di generare una risposta, infatti, come peraltro abbiamo osservato nell’articolo citato in apertura, sono formati da una lunga lista di numeri, noti come “attivazioni neuronali”, privi di un chiaro significato. Il fatto che modelli come Claude siano in grado di comprendere e utilizzare una vasta gamma di concetti è evidente. Ma non possiamo discernere questi concetti osservando direttamente i neuroni. Ogni concetto è rappresentato da molti neuroni, e ogni neurone contribuisce a rappresentare molti concetti.

In passato, Anthropic ha identificato alcuni schemi di attivazione neuronale, chiamati “feature”, associandoli a concetti “umanamente interpretabili”. Utilizzando una tecnica denominata “dictionary learning”, derivata dal machine learning classico, l’azienda ha provveduto a isolare schemi di attivazione neuronale ricorrenti in vari contesti. Qualsiasi stato interno del modello può così essere rappresentato in termini di poche feature attive anziché con molti neuroni attivi. Come ogni parola in un dizionario è composta da lettere e ogni frase da parole, ogni feature in un modello di IA è composta da neuroni e ogni stato interno da feature.

Risultati rivoluzionari

Lo studio di Anthropic dimostra in modo lampante che neppure gli sviluppatori dei modelli di IA possono conoscere, nel dettaglio, tutti i segreti dei LLM che realizzano.

Gli ingegneri della società affermano di aver estratto con successo milioni di feature dallo strato intermedio di Claude 3.0 Sonnet, producendo una mappa concettuale grossolana dei suoi stati interni a metà del processo computazionale.

Le feature trovate in Sonnet hanno una profondità, ampiezza e astrazione che riflettono le capacità avanzate del modello generativo. Anthropic racconta di aver identificato feature corrispondenti a una vasta gamma di entità come città (San Francisco), persone (Rosalind Franklin), elementi atomici (Litio), campi scientifici (immunologia) e sintassi di programmazione (chiamate di funzione). Queste feature sono multimodali e multilingua, rispondendo a immagini di una determinata entità, così come al suo nome o descrizione in molte lingue.

È stato possibile misurare una sorta di “distanza” tra le feature in base ai neuroni coinvolti nei loro schemi di attivazione, consentendo la ricerca di feature tra loro “vicine”. Ad esempio, vicino alla feature del “Golden Gate Bridge”, Anthropic ha trovato feature per Alcatraz, Ghirardelli Square (nota piazza di San Francisco), i Golden State Warriors (squadra di basket di San Francisco), il governatore della California Gavin Newsom, il terremoto del 1906 e il film di Alfred Hitchcock “Vertigo”, ambientato proprio a San Francisco. Per non parlare delle molteplici feature più astratte.

Le evidenze scoperte da Anthropic rappresentano un importante passo avanti per rendere i modelli di IA più sicuri. Le tecniche descritte potrebbero essere utilizzate per monitorare i sistemi di IA evitando comportamenti pericolosi, indirizzarli verso risultati desiderabili o rimuovere del tutto argomenti “nocivi”.