Gemini 1.5 Pro: ora l'IA può "ascoltare" contenuti audio

Quando si parla di chatbot IA, di solito si intendono strumenti in grado di percepire il mondo circostante attraverso input testuali, immagini o video. Con l’ultimo aggiornamento di Gemini Pro, però, ciò è destinato a cambiare.

Google ha infatti annunciato una nuova funzionalità che permette a Gemini 1.5 di “ascoltare” contenuti audio o vocali, estraendo informazioni da restituire come output testuali dai file analizzati. L’anteprima pubblica della nuova versione del noto LLM è disponibile su Vertex AI e promette di essere un nuovo e straordinario passo avanti per quanto concerne questa tecnologia.

I primi test, a tal proposito, sono stati effettuati in gran silenzio già da febbraio, coinvolgendo alcuni sviluppatori oltre a una selezione di clienti aziendali. A quanto pare, la fase di testing ha portato a ottimi risultati, tanto da rendere disponibile questa funzione a tutti gli utenti.

Gemini 1.5 Pro può elaborare fino a un milione di token analizzando file audio

I dettagli su questo nuovo aggiornamento di Gemini sono stati resi pubblici da Google nel contesto della manifestazione Cloud Next di Las Vegas.

Secondo la compagnia di Mountain View, Gemini 1.5 Pro rappresenta un aggiornamento sostanziale rispetto al passato. A detta del colosso informatico, il nuovo LLM è in grado di interagire con diversi tipi di audio, analizzando trasmissioni radiofoniche e registrazioni di teleconferenze. Il tutto, potendo elaborare l’audio in diverse lingue ed effettuando traduzione dei testi captati.

Sotto quest’ultimo punto di vista, però, a detta del sito TechCrunch Gemini 1.5 Pro mostrerebbe ancora alcune lacune che, con tutta probabilità, verranno comunque eliminate nel corso dei prossimi mesi.

Il nuovo modello proposto, così come tutti gli strumenti di IA che trattano in input/output del testo, lavora attraverso i token. Si tratta di un’unità di misura che rappresenta i dati grezzi che un’IA può mantenere in memoria.

Per quanto concerne Gemini 1.5 Pro, in tal senso, si parla di una capacità d’elaborazione pari a un milione di token, ovvero quanto basta per elaborare circa 11 ore di audio.

Gemini 1.5 Pro: ora l'IA può "ascoltare" contenuti audio

Gemini 1.5 Pro può elaborare fino a un milione di token analizzando file audio

Ti consigliamo anche

Meta: AI usata per individuare account di minorenni su Instagram

ChatGPT Search aumenta gli utenti in Europa ma resta lontano da Google

Ora è ufficiale: l'AI non impedisce di correre per gli Oscar

ChatGPT o3 sorprende tutti superando brillantemente il test Mensa