Videocamera Live: ChatGPT riconosce oggetti e ambiente circostante

ChatGPT

Sapevamo già da qualche tempo che uno degli obiettivi primari di OpenAI è quello di rendere i suoi modelli generativi sempre più multimodali, in grado cioè di utilizzare molteplici fonti e soprattutto diverse tipologie di contenuti. La funzionalità Videocamera Live, presentata a metà dicembre 2024, permette agli utenti di ChatGPT di inquadrare uno o più oggetti con la fotocamera dello smartphone Android o iOS quindi di ottenere informazioni e avviare conversazioni.

Videocamera Live arriva in Italia su ChatGPT: cos’è e come funziona

A differenza della semplice analisi di foto statiche, la modalità Videocamera Live permette una comunicazione continua mentre l’utente muove il suo smartphone nell’ambiente circostante. Gli utenti possono porre domande e ricevere risposte immediate, simili a una conversazione naturale con un assistente virtuale.

ChatGPT diventa così in grado di identificare oggetti, leggere etichette e fornire consigli utili. Ad esempio, può acquisire la lista degli ingredienti di un prodotto e suggerire come utilizzarli. Inoltre, si comporta bene nelle applicazioni pratiche evidenziando capacità di comprendere situazioni pratiche.

Gli utenti possono attivare Videocamera Live direttamente dall’app ChatGPT, senza necessità di aggiornamenti. Basta toccare sull’icona della videocamera presente nella schermata principale per attivare la nuova funzionalità che adesso risulta accessibile anche in Italia.

Applicazioni pratiche e confronto con Llama 3.2 Vision

La funzionalità Videocamera Live si mette in evidenza per molteplici potenziali applicazioni in vari contesti. ChatGPT può ad esempio fornire istruzioni dettagliate per lo svolgimento delle attività quotidiane, ad esempio su come cucinare o assemblare mobili, e ciò propri grazie alle abilità di visione in tempo reale.

Gli studenti possono ricevere assistenza immediata per problemi di matematica o scienze semplicemente puntando la fotocamera verso un problema o un oggetto. Ancora, un turista può ottenere informazioni storiche o artistiche su monumenti o luoghi d’interesse semplicemente inquadrandoli con lo smartphone.

Appena due mesi fa, a inizio novembre 2024, scrivevamo che Llama 3.2 Vision superava ChatGPT per “chattare” con il contenuto delle immagini: adesso il chatbot di OpenAI “rilancia” semplificando l’interazione con lo spazio circostante attraverso la fotocamera di qualsiasi dispositivi mobile, in tempo reale. Llama 3.2 Vision, specie se utilizzato con un tool come Ollama, ha però l’innegabile vantaggio di essere utilizzabile in locale, senza bisogno di versare un centesimo. Inoltre, può essere collegato tramite API (Application Programming Interfaces) con le proprie applicazioni.

Un nuovo inizio per un’AI capace di “vedere”

L’introduzione di Videocamera Live in ChatGPT rappresenta un nuovo importante passaggio cruciale: l’intelligenza artificiale, sfruttando la fotocamera dello smartphone, può “vedere” l’ambiente circostante, arricchire le proprie conoscenze e fornire agli utenti risposte pertinenti e contestualizzate basandosi sulle informazioni ricevute in ingresso oltre che, ovviamente, sul contenuto di ogni singolo prompt.

Per il momento Videocamera Live è accessibile in versione beta soltanto agli utenti di ChatGPT che hanno attivato un piano a pagamento. Non è escluso, anzi è probabile, che in futuro la stessa funzionalità possa essere resa disponibile anche nel piano ChatGPT Free.