Sam Altman, il numero uno di OpenAI, ha recentemente dichiarato che l’era dei modelli generativi di grandi dimensioni è già finita lasciando intendere che non ci sarebbe stato un GPT-5 per un bel po’ di tempo, almeno non nel 2023.
In realtà stanno bollendo in pentola svariate novità che sembrano guardare a un nuovo modello generativo ancora più potente rispetto al GPT-4 utilizzato anche nella più recente incarnazione del chatbot ChatGPT. Stando alle indiscrezioni che arrivano da fonti interne a OpenAI stessa, intorno al mese di ottobre 2023, dovrebbe innanzi tutto debuttare GPT-4.5 ovvero una versione intermedia del modello generativo che farà proprio l’approccio multimodale.
Lo abbiamo visto di recente con Meta ImageBind: un modello generativo per l’IA con capacità multimodali è in grado di generare e comprendere più modalità di informazione. In generale, le modalità si riferiscono ai diversi canali sensoriali o tipi di dati, come il testo, le immagini, l’audio o addirittura i video. Un modello generativo multimodale può lavorare con più di una di queste modalità contemporaneamente, integrando e combinando le informazioni provenienti da diverse fonti per generare output coerenti e completi.
Ad esempio, un modello generativo multimodale potrebbe essere in grado di generare una descrizione testuale dettagliata di un’immagine o di generare un’immagine a partire da una descrizione testuale. Questo richiede al modello di comprendere sia il contenuto dell’immagine che il significato del testo per produrre un’uscita coerente e significativa.
Le capacità multimodali possono essere estese anche ad altre modalità, come la traduzione multimodale, dove il modello può tradurre il testo da una lingua all’altra incorporando informazioni visive o audio contestuali. Allo stesso modo, un modello generativo multimodale può essere utilizzato per la sintesi vocale di testo o per la generazione di dialoghi che includono testo, immagini e audio.
Secondo Meta, i modelli generativi multimodali potranno arrivare a creare contenuti immersivi per la realtà virtuale: i principali player del settore sono in fermento quindi sarà interessante capire cosa farà OpenAI in questo segmento e se vedremo applicazioni AI con un forte carico innovativo in molti settori, finora inesplorati, proprio con il rilascio di GPT-5.
Il passaggio seguente sarà sviluppare una AGI (Artificial General Intelligence) ovvero un tipo di intelligenza artificiale che è in grado di “comprendere”, “apprendere” e svolgere una vasta gamma di attività intellettuali simili a quelle svolte dagli esseri umani. A differenza dei sistemi di intelligenza artificiale specializzati, che sono progettati per svolgere specifici compiti o gestire problemi specifici, AGI aspira a una forma di intelligenza artificiale generale che possa essere applicata in modo flessibile a un ampio ventaglio di attività.
Una AGI dovrebbe essere in grado di affrontare situazioni nuove o compiti che non ha mai incontrato prima, utilizzando la sua intelligenza generale per trarre conclusioni e prendere decisioni in modo autonomo.
L’intento di OpenAI sarebbe quello di plasmare questa superintelligenza proprio con l’arrivo di GPT-5, che secondo alcune stime non verrebbe presentato sul mercato prima del 2024. Anche perché lo stesso GPT-4 è un “cantiere aperto”: il tempo di inferenza di GPT-4 è molto elevato ed è piuttosto costoso da gestire. Lo stesso accesso ai plugin di ChatGPT e alla funzionalità di navigazione in Internet sono ancora in versione beta.
Il futuro modello GPT-5 dovrebbe comunque ridurre il tempo di inferenza, migliorare l’efficienza, contrastare il problema delle allucinazioni ovvero la tendenza dei modelli a generare output che non corrispondono alla realtà o che contengono informazioni immaginarie o inventate.
Secondo OpenAI, GPT-4 ha l’82% in meno di probabilità di rispondere ai prompt degli utenti con contenuti imprecisi o fuori luogo; ha inoltre una precisione vicina all’80% in tutte le categorie di test facendo evidenziare un netto progresso nella lotta alle allucinazioni. Con GPT-5, si prevede che la società guidata da Altman ridurrà le allucinazioni a meno del 10%: una vera e propria “pietra miliare” per i modelli LLM.
Un’enorme fetta delle entrate di OpenAI proviene da imprese e aziende quindi GPT-5 non deve essere solo più economico ma anche più veloce per restituire l’output. Gli sviluppatori stanno già rimproverando il fatto che le chiamate API GPT-4 spesso smettono di rispondere e sono costretti a utilizzare il modello GPT-3.5 in produzione: con le future evoluzioni del modello generativo, questo dovrebbe cambiare.
Infine un’ulteriore novità: registrando l’enorme successo del modello generativo open source LLaMA di Meta e di altre soluzioni, anche derivate, a sorgente aperto, OpenAI avrebbe cambiato la sua posizione. Vi ricordate anche quanto dichiarato da un dipendente Google che faceva presente che i modelli open source per l’intelligenza artificiale avrebbero superato quelli di OpenAI e Google stessa?
Ebbene, stando sempre a fonti vicine a OpenAI, l’azienda starebbe lavorando su un nuovo modello di intelligenza artificiale open source che sarà presto rilasciato al pubblico. Non ci sono informazioni sulle sue capacità e su quanto sarà competitivo rispetto a GPT-3.5 o GPT-4, ma è davvero un gradito cambiamento.