I parametri usati per l’addestramento dei modelli generativi contribuiscono a definire come possono essere prodotti dati simili a quelli forniti nella fase di apprendimento. Si tratta di “regole generali” per la creazione di nuovi dati che il modello acquisisce dalle informazioni di addestramento fornite in precedenza. In un modello generativo basato su reti neurali, i parametri vengono ottimizzati per migliorare la capacità del modello di generare dati sintetici coerenti con quelli di addestramento.
Il modello GPT-4 di OpenAI si ritiene sia stato composto utilizzando qualcosa come 1.000 miliardi di parametri, ben 6 volte il numero di parametri che contraddistinguevano il precedente modello GPT-3. Nel complesso, GPT-4 è stato addestrato utilizzando migliaia di miliardi di parole e si calcola che la sua realizzazione sia costata circa 100 milioni di dollari a OpenAI, anche se l’amministratore delegato della società, durante un incontro svoltosi presso il MIT (Massachusetts Institute of Technology) ad aprile 2023, ha detto che la cifra è più alta.
Sam Altman, CEO di OpenAI, ha però adesso dichiarato che la corsa ai modelli generativi di dimensioni sempre più grandi sarebbe già conclusa. Secondo Altman gli attuali modelli potranno evolvere in altri modi, non più puntando sulla “grandezza”.
Il numero uno di OpenAI ha preferito non “sbottonarsi” troppo non facendo trapelare praticamente nulla circa i piani futuri della sua azienda: purtuttavia, Altman ha lasciato intendere che GPT-4 potrebbe essere l’ultimo e definitivo avanzamento nella strategia di OpenAI per ciò che riguarda il numero di parametri utilizzati in fase di addestramento.
D’altra parte anche nel documento che descrive GPT-4, OpenAI afferma che le sue stime suggeriscono rendimenti decrescenti a fronte di un ulteriore aumento delle dimensioni del modello. Altman ha aggiunto, com’è facile immaginare, che esistono anche limiti fisici al numero di data center e di sistemi che l’azienda può costruire e impiegare. Inoltre, la crescita esponenziale dei parametri non può essere sostenuta con un altrettanto veloce dispiegamento delle risorse hardware necessarie per elaborare e gestire il modello.
Anche Nick Frosst, cofondatore di Cohere e precedentemente nelle fila di Google per lo sviluppo delle sue soluzioni di intelligenza artificiale, si pone sulla stessa lunghezza d’onda di Altman: ritiene che i transformer, alla base del concetto di modelli generativi, possano evolvere ancora molto al di là del numero dei parametri.
Nell’articolo su come creare un modello generativo simile a GPT con poche righe di codice Python, abbiamo visto cos’è un transformer. Un transformer è un tipo di architettura di rete neurale utilizzata in molti modelli generativi: è stato introdotto per la prima volta nel documento “Attention is All You Need” presentato nel 2017 e si è dimostrato molto efficace nell’affrontare problemi di elaborazione del linguaggio naturale (traduzione automatica, sintesi del testo, generazione di testi coerenti con l’input).
La caratteristica principale del transformer è l’uso di meccanismi di attenzione (attention) per elaborare sequenze di dati in input. Quest’ultimo è un concetto che permette al modello di dare differenti pesi a diverse parti dell’input, focalizzandosi su quelle rilevanti per la generazione del testo. Un approccio che dà modo al transformer di catturare relazioni a lungo raggio tra i termini forniti in ingresso dall’utente migliorando la capacità di generare testi coerenti e contestualmente appropriati.
L’utilizzo di blocchi di codifica e decodifica che operano in parallelo permette l’elaborazione efficace ed efficiente delle sequenze in input con la generazione dell’output.
Per Frosst, i transformer possono quindi migliorare senza comportare l’aggiunta di parametri al modello. Molti ricercatori stanno ad esempio già esplorando nuove architetture di intelligenza artificiale e la messa a punto dei modelli basata sul feedback umano.
Anzi, è estremamente probabile che già per GPT-4 OpenAI abbia usato il metodo chiamato apprendimento per rinforzo con feedback umano: si tratta di un approccio che prevede il miglioramento delle prestazioni del modello generativo attraverso un processo di interazione con esperti umani che forniscono riscontri sulla qualità delle risposte via via ottenute.
Nell’apprendimento per rinforzo con feedback umano, l’esperto umano svolge il ruolo di “valutatore” e fornisce feedback sulla qualità delle “generazioni” giudicando se esse siano corrette, appropriate e coerenti.
Sempre durante la conferenza presso il MIT svoltasi ad aprile 2023, Altman ha puntualizzato che OpenAI non sta attualmente lavorando sullo sviluppo di un nuovo modello GPT-5 e non lo farà per un bel po’ di tempo.