Infini-attention: l'intelligenza artificiale può lavorare su testi di lunghezza infinita

Google presenta il concetto di Infini-attention, per elaborare prompt in ingresso praticamente infiniti. Senza problemi in termini di consumo delle risorse e qualità dei risultati forniti dal modello generativo.

Nel 2017, un gruppo di ingegneri software Google ha presentato la storica ricerca dal titolo “Attention Is All You Need“. Sebbene, all’epoca, il documento non avesse ottenuto l’attenzione che meritava, proprio da parte dei vertici dell’azienda di Mountain View, quello studio avrebbe poi letteralmente rivoluzionato il campo del deep learning, in particolare nell’ambito del Natural Language Processing (NLP).

L’approccio descritto dai tecnici Google, infatti, introduceva un’innovativa architettura di rete neurale chiamata Transformer: basata sul concetto di “attenzione“, eliminava la necessità di utilizzare strati ricorrenti o convoluzionali, ampiamente utilizzati in precedenza.

I Transformer hanno dimostrato la loro efficacia nell’apprendere le relazioni ad ampio spettro presenti nei dati, superando le prestazioni dei modelli precedenti in molte attività legate all’elaborazione del linguaggio naturale.

Infini-attention: cosa cambia con la possibilità, per i modelli generativi, di lavorare su testi infiniti

Con un nuovo studio, appena pubblicato, Google torna a far parlare di sé e introduce, ancora una volta, un’idea innovativa. La società fondata da Larry Page e Sergey Brin ha svelato pubblicamente la nuova tecnica Infini-attention, che permette ai Large Language Models (LLM) di lavorare con testi di lunghezza infinita.

L’approccio appena proposta estende la cosiddetta “finestra di contesto” (context window) dei modelli linguistici, consentendo loro di elaborare un numero maggiore di token contemporaneamente, senza aumentare i requisiti di memoria e calcolo.

La finestra di contesto rappresenta il numero di token su cui un modello può lavorare in un dato momento. Si pensa in esame il chatbot ChatGPT e il sottostante modello GPT di OpenAI: se le informazioni introdotte vanno oltre la finestra di contesto, le prestazioni del modello calano bruscamente e i token presenti nella parte iniziale della chat sono automaticamente scartati.

Aumentare la lunghezza del contesto è perciò diventato uno obiettivo primario per migliorare le prestazioni e la qualità dei risultati dei modelli generativi, ottenendo così un vantaggio competitivo.

Gli esperimenti condotti dal team di ricerca di Google indicano che i modelli basati su Infini-attention possono mantenere la loro qualità su oltre un milione di token, senza richiedere memoria aggiuntiva. Inoltre, questo tipo di performance possono essere estese anche a testi di lunghezza ancora superiore.

Come fa Infini-attention a migliorare le prestazioni del modello senza effetti collaterali

L’uso dei Transformer presenta una “complessità quadratica” in termini di memoria e tempo di calcolo. Ciò significa che la quantità di memoria richiesta e il tempo necessario per elaborare i dati aumentano esponenzialmente con la dimensione dei dati di input.

Ad esempio, se si estende la dimensione dell’input da 1.000 a 2.000 token, la memoria e il tempo di calcolo necessari per elaborare l’input non raddoppiano, ma addirittura quadruplicano.

Questa relazione quadratica scaturisce dal meccanismo di auto-attenzione utilizzato nei Transformer. Esso confronta ogni elemento nella sequenza di input con ogni altro elemento. In altre parole, ogni token nell’input deve essere messo in relazione con tutti gli altri token, il che comporta un aumento significativo della complessità computazionale all’aumentare della dimensione del prompt fornito in ingresso dall’utente.

Infini-attention mantiene il meccanismo di attenzione classico e aggiunge un modulo chiamato “compressive memory” per gestire gli input estesi. Una volta che l’input supera una certa lunghezza di contesto, il modello salva i vecchi stati di attenzione nella compressive memory, che mantiene un numero costante di parametri per massimizzare l’efficienza computazionale. Al fine di elaborare l’output finale, Infini-attention aggrega poi il contenuto della compressive memory e i contesti di attenzione locale.

L’apertura a LLM con un contesto infinito potrebbe consentire la creazione di applicazioni personalizzate, eliminando la necessità di ricorrere tecniche complesse come il fine-tuning o la Retrieval-Augmented Generation (RAG).

Il nuovo studio di Google, comunque, non è destinato a spazzare via tutte le altre tecniche: piuttosto, renderà più accessibile la creazione di applicazioni di intelligenza artificiale avanzate, senza la necessità di ingenti sforzi di ingegneria.

Credit immagine in apertura: iStock.com – BlackJack3D

Ti consigliamo anche

Link copiato negli appunti