Quando abbiamo parlato del funzionamento dei Large Language Models (LLM) abbiamo visto che i modelli “tradizionali” si limitano a prevedere solo la parola successiva in una sequenza. O meglio un token, che non necessariamente coincide con una parola. Meta ha appena presentato un approccio innovativo che introduce un metodo di previsione multi-token: ciò significa che l’intelligenza artificiale può offrire prestazioni migliorare e assicurare tempi di addestramento drasticamente ridotti.
Cosa sono e come funzionano i modelli di previsione multi-token
La previsione multi-token è un approccio innovativo nell’ambito dell’intelligenza artificiale e, in particolare, nella formazione dei LLM. Come accennato in precedenza, il modello non si limita a prevedere una singola parola alla volta, ma cerca di stimare simultaneamente più parole future in una sequenza. Si tratta di un cambiamento con diverse implicazioni importanti:
- Maggiore efficienza nell’addestramento: Prevedendo più token contemporaneamente, i modelli possono apprendere in modo più rapido ed efficiente. Ciò significa che richiedono meno tempo e risorse computazionali per raggiungere un livello di accuratezza comparabile o superiore rispetto ai modelli tradizionali.
- Comprensione migliorata del contesto: La previsione multi-token permette ai modelli di considerare più ampiamente il contesto di una frase o di un paragrafo. Questo può portare a una comprensione più sofisticata delle strutture linguistiche e dei significati contestuali, migliorando le prestazioni in compiti complessi come la generazione di testi, la traduzione automatica e il completamento del codice.
- Propagazione degli errori ridotta: Quando un modello prevede un token alla volta, un errore nella previsione di un singolo token può influenzare negativamente tutte le previsioni successive. Prevedendo più token contemporaneamente, il modello può mitigare gli effetti degli errori individuali, assicurando una maggiore robustezza complessiva.
- Applicazioni avanzate: Lo schema presentato da Meta può migliorare varie applicazioni di intelligenza artificiale. Ad esempio, nei sistemi di completamento del codice, la previsione multi-token può aiutare a suggerire blocchi di codice più completi e contestualmente appropriati. Nella generazione di testi creativi, può contribuire a creare contenuti più coerenti e ben strutturati.
Un esempio pratico
Immaginiamo un modello di linguaggio tradizionale addestrato a prevedere una parola alla volta. Se il modello riceve come input la frase “Il gatto salta sopra“, potrebbe verosimilmente prevedere “il” come parola successiva. Un modello di previsione multi-token potrebbe ricevere lo stesso input e prevedere simultaneamente le parole successive come “il tavolo e si“, generando la sequenza “Il gatto salta sopra il tavolo e si siede“.
Un nuovo paradigma per l’addestramento dei modelli di linguaggio
La tecnica di previsione multi-token, descritta per la prima volta in un articolo tecnico di Meta a fine aprile 2024, si allontana dal metodo tradizionale per l’addestramento dei LLM. Man mano che i modelli di intelligenza artificiale aumentano di dimensioni e complessità, la loro insaziabile richiesta di potenza computazionale ha sollevato preoccupazioni riguardo ai costi e all’impatto ambientale. Rene Haas, numero uno di ARM, ha calcolato quanta energia consumano i moderni modelli generativi. Il metodo di previsione multi-token di Meta potrebbe offrire un modo per ridurre questa tendenza, rendendo l’IA avanzata più accessibile e sostenibile.
Democratizzazione dell’IA: opportunità e sfide
A beneficio dei ricercatori e di tutti gli utenti potenzialmente interessati, Meta ha pubblicato il modello multi-token su Hugging Face sotto forma di prodotto open source.
La decisione di Meta di rilasciare il suo lavoro sotto licenza non commerciale è in linea con l’impegno dichiarato dell’azienda per accelerare la ricerca scientifica. Ma è anche una mossa strategica nel panorama competitivo dell’IA, in cui una maggiore apertura può portare a un’innovazione più rapida e all’acquisizione di talenti.
La democratizzazione degli strumenti di IA così potenti rappresenta, secondo molti, una lama a doppio taglio. Se da un lato potrebbe livellare il campo di gioco per i ricercatori e le piccole aziende, dall’altro abbassa la barriera per potenziali usi impropri. La sfida consiste adesso nello sviluppare perimetri etici robusti e misure di sicurezza che possano tenere il passo con questi rapidi progressi tecnologici.
Una cosa è chiara: l’ultima mossa di Meta ha aggiunto ulteriore carburante alla già ardente “corsa agli armamenti” nel campo dell’IA. Mentre i ricercatori e gli sviluppatori si immergono in questi nuovi modelli, il prossimo capitolo nella storia dell’intelligenza artificiale si sta già scrivendo.
Credit immagine in apertura: iStock.com – NicoElNino