A marzo 2023, OpenAI ha presentato quella che fino ad oggi era rimasta l’ultima versione del modello generativo pubblicamente disponibile: GPT-4. Un paio di giorni fa, l’azienda guidata da Sam Altman ha spiegato che ChatGPT diventa in grado di vedere, leggere e ascoltare. La grande novità è che il modello sottostante è adesso capace di intrattenere discussioni con l’utente usando la voce e di esaminare le immagini fornite in input, con la possibilità di generarne a sua volta e offrirle ad integrazione delle risposte fornite. Alla base del nuovo ChatGPT sembra esserci GPT-4V, con l’ultima lettera che sta “Vision“.
Di fatto si tratta di un nuovo modello generativo che consente di affiancare alle tradizionali abilità di GPT-4, anche delle capacità multimodali. Ciò significa che le applicazioni costruite al di sopra di GPT-4V possono interagire con l’utente usando altre modalità, ancora più evolute e tra di loro integrate. Ecco quindi che l’intelligenza artificiale può “comprendere” e generare non soltanto contenuti testuali ma anche avvalersi di altre tipologie di oggetti, come appunto le immagini e i suoni (la voce).
GPT-4V: OpenAI apre le porte alla visione artificiale nelle mani di qualunque sviluppatore
Come già fatto con GPT-4 e con le precedenti versioni del modello generativo, anche GPT-4V sarà utilizzabile tramite API, così da essere facilmente integrabile in qualsiasi genere di applicazione.
Con GPT-4V, OpenAI mette di fatto nelle mani di tutti gli sviluppatori interessati un sistema avanzato di visione artificiale computerizzata (computer vision), capace di riconoscere gli oggetti raffigurati in un’immagine e fare inferenza sugli stessi. In altre parole, il sistema è ad esempio in grado di esaminare nel dettaglio la struttura di qualunque foto o disegno per poi svolgere elaborazioni puntuali sui contenuti trasmessi in input.
I problemi da gestire
In un documento pubblicato da OpenAI nei giorni scorsi, la società conferma alcuni dei punti che abbiamo tratto nell’articolo citato in apertura. Riferendosi al modello GPT-4V, OpenAI conferma che è stato fino ad oggi prevalentemente sfruttato da alcuni utenti dell’app Be My Eyes, che assiste persone ipovedenti e non vedenti aiutandole a muoversi nell’ambiente circostante.
Con l’intento di mitigare potenziali problemi, OpenAI ha iniziato a collaborare con una serie di “red teamers” al fine di analizzare il modello e individuarne eventuali comportamenti indesiderati. I red teamers sono professionisti o gruppi di esperti incaricati di svolgere un ruolo critico durante la fase di test e valutazione di sistemi, reti o procedure di sicurezza. Quest’attività si ispira al concetto militare di “red teaming“, in cui una squadra (il “red team”, appunto) simula il ruolo di un nemico o di un aggressore per testare la resistenza e la capacità difensiva di un’organizzazione.
Nel documento tecnico di OpenAI, la società spiega di aver adottato diverse misure di sicurezza per evitare utilizzi dannosi di GPT-4V. Ad esempio, il modello non può violare i CAPTCHA, non permette di identificare persone o stimarne l’età o l’etnia, non deve trarre conclusioni basate su informazioni non presenti in un’immagine. Inoltre, OpenAI racconta di aver implementato soluzioni per ridurre i pregiudizi all’interno del modello, specialmente riguardo all’aspetto fisico, al genere e all’etnia delle persone.
Gli errori commessi dal modello
Come tutti i modelli di intelligenza artificiale, tuttavia, anche GPT-4V commette degli errori, ad esempio combinare più stringhe inventandosi un termine nuovo; può soffrire di allucinazioni, inventando fatti di sana pianti pur riportandoli con un tono autorevole, non riesce a riconoscere oggetti banali da rilevare o certi luoghi.
OpenAI al momento impedisce di usare GPT-4V per individuare sostanze chimiche pericolose a partire dalle immagini: il modello è risultato poco affidabile in questo contesto. Nell’ambito dell’imaging in ambito medico, inoltre, GPT-4V ha evidenziato parecchie incertezze, anche nel fornire risposte a quesiti già oggetto di una precedente risposta corretta.
Come funziona GPT-4V: ecco la prima prova su strada
Roboflow è una piattaforma che si occupa di facilitare il processo di preparazione dei dati per la realizzazione di progetti di visione artificiale. Aiuta a organizzare, etichettare e preparare le immagini in modo che possano essere utilizzate per addestrare modelli di intelligenza artificiale. Genera inoltre etichette, essenziali nella fase di addestramento; supporta la conversione di diversi formati di dati e immagini; facilita l’integrazione dei dati preparati con vari modelli di machine learning, compresi quelli basati su reti neurali convoluzionali. Provate a visitare la home page del progetto per rendervi conto di cosa può fare Roboflow e quali automatizzazioni aiuta ad implementare.
Ebbene, James Gallagher e Piotr Skalski raccontano di aver messo le mani in anteprima su GPT-4V testandone il funzionamento in maniera piuttosto approfondita. Il “duo” ha messo alla prova GPT-4V su vari quesiti, anche un maniera piuttosto “furba”.
Ad esempio, come primo input per GPT-4V hanno usato un meme che abbinava termini legati alla tecnologia con un’immagine formata da alimenti. Il modello di OpenAI è riuscito nell’impresa di descrivere correttamente il motivo per cui l’immagine era divertente, facendo riferimento ai vari componenti dell’immagine e al modo in cui si collegano. GPT-4V ha commesso un piccolo errore ma, tutto sommato, di scarso rilievo.
Nei successivi test, GPT-4V ha riconosciuto con successo la denominazione e la tipologia di una moneta descrivendo anche quanto raffigurato. Ha anche rilevato con precisione una valuta polacca facendo i conti del valore delle monetine appoggiate su un tavolo.
Riconoscimento di immagini di film, città, piante e risoluzione di problemi matematici
Inviando a GPT-4V un fotogramma del film Pulp Fiction, il modello ha riconosciuto correttamente la pellicola cinematografia e ha offerto una descrizione di alto livello. Ha poi riconosciuto correttamente il nome di una città a partire da una foto panoramica, ha fornito le indicazioni per la cura di una pianta da appartamento, ha attivato correttamente le funzionalità OCR quando necessario, ha risolto in maniera corretta un problema di trigonometria a partire da una foto scattata con lo smartphone.
Rilevamento di oggetti
Nel caso del riconoscimento di oggetti, GPT-4V non è stato solamente in grado di rilevarli ma, ad esempio, ha restituito su richiesta le coordinate all’interno di una foto.
Diversamente da quanto indicato da OpenAI, Roboflow riporta che il modello prova comunque a riconoscere gli oggetti raffigurati nei CAPTCHA pur commettendo qualche errore. Ad esempio non è stato in grado di stabilire la posizione dei classici semafori nel CAPTCHA Google.
GPT-4V, inoltre, ha fornito prestazioni mediocri nella risoluzione di Cruciverba e Sudoku: le risposte non erano corrette.
Conclusioni
GPT-4V ha funzionato bene in varie domande generali sulle immagini e ha dimostrato consapevolezza del contesto nella stragrande maggioranza dei casi. Roboflow spiega che per le risposte a quesiti di carattere generale, GPT-4V sa davvero essere entusiasmante. Sebbene in passato esistessero modelli utili a questo scopo, spesso mancavano di fluidità nelle risposte. GPT-4V è in grado sia di rispondere ai quesiti sia di dare seguito a domande su un’immagine e di farlo in modo approfondito.
Il nuovo modello di OpenAI permette di porre domande su un’immagine senza creare un processo in due fasi. Non c’è bisogno di classificare prima un’immagine per poi porre una domanda a un modello linguistico. Le limitazioni non mancano, ma il balzo in avanti compiuto con uno strumento come GPT-4V è davvero notevole.