Google AI Studio permette di estrarre dati da un video a costo zero o quasi

Google AI Studio, parte di Google Cloud, offre strumenti avanzati per l'ottimizzazione e l'implementazione di modelli di intelligenza artificiale, inclusi i modelli multimodali Gemini. Il ricercatore Simon Willison ha utilizzato questa piattaforma per estrarre dati da un video, trasformandoli in file JSON e CSV. I vantaggi dell'automazione tramite AI sono sotto gli occhi di tutti.

Google AI Studio è una piattaforma Web che consente agli sviluppatori di interagire, ottimizzare e implementare modelli di intelligenza artificiale generativa. È parte di Google Cloud e si integra con Vertex AI, fornendo strumenti per la prototipazione rapida e l’ottimizzazione dei modelli per l’intelligenza artificiale. Gli utenti hanno la possibilità di accedere istantaneamente ai modelli multimodali come Gemini. Il ricercatore indipendente Simon Willison ha di recente raccontato la sua esperienza nell’estrazione di dati da un video, per trasformarli in un file CSV direttamente elaborabile. Se siete curiosi, continuate a leggere!

Estrarre dati da un video e generare un file JSON con Google Gemini

L’automazione delle attività ripetitive sta diventando cosa sempre più preziosa, soprattutto nell’era dell’intelligenza artificiale. Spesso ci troviamo di fronte a situazioni in cui raccogliere informazioni sparse su diversi supporti digitali richiede tempo e attenzione, come gestire valori numerici presenti in email o documenti.

Willison racconta di aver attivato la registrazione dello schermo per poi essere passato ad aprire una serie di email contenenti valori utili per la sua attività. Per riutilizzare quei dati in forma strutturata avrebbe dovuto fare tutto a mano, con un dispendio di tempo considerevole.

Ecco quindi l'”idea geniale”: perché non registrare in un video tutti i passaggi e passarlo a Google AI Studio per poi richiedere un’elaborazione automatizzata con i modelli Gemini?

Che cos’è il video scraping?

Il video scraping è un metodo innovativo che permette di estrarre informazioni strutturate da un video che cattura le attività sullo schermo. Invece di interagire manualmente con una serie di dati, si registra un video mentre si naviga attraverso i contenuti e si usa l’intelligenza artificiale per processare ciò che è visibile trasformandolo in informazioni utilizzabili.

Si immagini, appunto, di avere una serie di email con dati finanziari distribuiti tra di esse. Copiare e incollare manualmente i numeri è noioso: è inoltre un processo che porta il rischio di introdurre errori.

Una volta registrato, il video può essere caricato su strumenti come Google AI Studio, che sfruttano modelli di intelligenza artificiale come Gemini 1.5 Pro e Gemini 1.5 Flash. Con un semplice prompt del tipo: “Trasforma questo in un array JSON con data e importo numerico“, il modello è in grado di estrarre i dati presenti nel video e convertirli in un formato facilmente manipolabile, come un file JSON o CSV. L’upload del video è effettuabile premendo il pulsante “+” a destra della casella per l’inserimento del prompt.

Considerazioni sulla privacy e l’accesso ai dati

Sebbene la tecnica del video scraping sia estremamente utile, è necessario fare attenzione a come vengono trattati i dati. Utilizzare la versione gratuita del servizio Google AI Studio può comportare il rischio che i dati siano utilizzati per l’addestramento dei modelli di IA. L’azienda di Mountain View indica chiaramente che le informazioni conferite dagli utenti del piano free potrebbero essere riutilizzate.

La soluzione è passare a un piano a pagamento: utilizzando le API, previa attivazione di un profilo commerciale, infatti, Google offrire massime garanzie di riservatezza. Ed è proprio questo che ha fatto Willison: l’estrazione dei dati dal suo video gli è costata peraltro pochissimo. Quanto? Appena 1/10 di centesimo di dollaro (elaborazione di poco più di 11.000 token).

Questo mette bene in evidenza come con un esborso economico praticamente pari a zero si riescano oggi a svolgere automaticamente attività che avrebbero richiesto ore di impegno.

Nello specifico, Willison ha utilizzato il recente ma più limitato (ed economico) modello Gemini 1.5 Flash verificando come l’IA avesse perfettamente gestito i suoi 35 secondi di video pre-registrato, estraendo tutti i dati richiesti e producendo dapprima un file JSON e poi un CSV.

Credit immagine in apertura: iStock.com – Olemedia

Ti consigliamo anche

Link copiato negli appunti