Vision, l'ultimo modello GPT-4 Turbo: perché è così interessante?

OpenAI, attraverso un post su X, ha annunciato il lancio di Vision per GPT-4, l’ultimo modello proposto dalla compagnia.

Il modello mantiene la capacità di elaborazione dati da 128.000 token di GPT-4 Turbo, con un aggiornamento per quanto riguarda i dati a dicembre 2023. La differenza principale rispetto al passato è la sua capacità di comprendere immagini e contenuti visivi.

Prima che GPT-4 Turbo avesse a disposizione questo importante aggiornamento, gli sviluppatori dovevano ricorrere a modelli separati per lavorare su testo e immagini.

Con questa implementazione, i professionisti del settore possono utilizzare a un unico modello per agire su entrambe le tipologie di contenuti, il che è un vantaggio non da poco. Di fatto, tale mossa, porta GPT-4 Turbo ad essere un modello considerabile come “multimodale“.

Con Vision GPT-Turbo diventa multimodale per la gioia degli sviluppatori IA

Sempre attraverso X, la compagnia di Sam Altman ha condiviso un filmato che mostra come gli sviluppatori possono sfruttare il nuovo modello per il proprio lavoro.

Make Real, built by @tldraw, lets users draw UI on a whiteboard and uses GPT-4 Turbo with Vision to generate a working website powered by real code. pic.twitter.com/RYlbmfeNRZ

— OpenAI Developers (@OpenAIDevs) April 9, 2024

Le nuove potenzialità di GPT-4 Turbo hanno già entusiasmato la community, con diversi sviluppatori che hanno mostrato al pubblico le loro creazioni.

Per esempio, l’app Healthify ha già mostrato come sia stata in grado di utilizzare GPT-4 Turbo con Vision per scansionare le foto dei pasti degli utenti e fornire approfondimenti nutrizionali attraverso il riconoscimento delle foto.

Vision è solo una delle ultime implementazioni di OpenAI a GPT-4 Turbo. L’azienda, in tal senso, ha cercato di rendere l’IA meno pigra e più reattiva rispetto i comandi degli utenti.