Quando si parla di chatbot IA, di solito si intendono strumenti in grado di percepire il mondo circostante attraverso input testuali, immagini o video. Con l’ultimo aggiornamento di Gemini Pro, però, ciò è destinato a cambiare.
Google ha infatti annunciato una nuova funzionalità che permette a Gemini 1.5 di “ascoltare” contenuti audio o vocali, estraendo informazioni da restituire come output testuali dai file analizzati. L’anteprima pubblica della nuova versione del noto LLM è disponibile su Vertex AI e promette di essere un nuovo e straordinario passo avanti per quanto concerne questa tecnologia.
I primi test, a tal proposito, sono stati effettuati in gran silenzio già da febbraio, coinvolgendo alcuni sviluppatori oltre a una selezione di clienti aziendali. A quanto pare, la fase di testing ha portato a ottimi risultati, tanto da rendere disponibile questa funzione a tutti gli utenti.
Gemini 1.5 Pro può elaborare fino a un milione di token analizzando file audio
I dettagli su questo nuovo aggiornamento di Gemini sono stati resi pubblici da Google nel contesto della manifestazione Cloud Next di Las Vegas.
Secondo la compagnia di Mountain View, Gemini 1.5 Pro rappresenta un aggiornamento sostanziale rispetto al passato. A detta del colosso informatico, il nuovo LLM è in grado di interagire con diversi tipi di audio, analizzando trasmissioni radiofoniche e registrazioni di teleconferenze. Il tutto, potendo elaborare l’audio in diverse lingue ed effettuando traduzione dei testi captati.
Sotto quest’ultimo punto di vista, però, a detta del sito TechCrunch Gemini 1.5 Pro mostrerebbe ancora alcune lacune che, con tutta probabilità, verranno comunque eliminate nel corso dei prossimi mesi.
Il nuovo modello proposto, così come tutti gli strumenti di IA che trattano in input/output del testo, lavora attraverso i token. Si tratta di un’unità di misura che rappresenta i dati grezzi che un’IA può mantenere in memoria.
Per quanto concerne Gemini 1.5 Pro, in tal senso, si parla di una capacità d’elaborazione pari a un milione di token, ovvero quanto basta per elaborare circa 11 ore di audio.