Come previsto, la conferenza I/O 2024 di Google si è rivelata interamente incentrata sulle tante (e alcune davvero sorprendenti) novità di Big G in fatto di intelligenza artificiale. L’azienda di Mountain View ha presentato novità per tutti i suoi i servizi, come Foto, Workspace e Search, alcune delle quali però disponibili solo a partire dai prossimi mesi e/o inizialmente solo negli USA.
Google I/O 2024: gli annunci più importanti
Chiedi a Foto
Ogni giorno vengono caricate oltre 6 miliardi di foto su Google Foto e per molti utenti spesso risulta difficile trovare quella precisa foto di cui hanno bisogno in quel momento. Utilizzando la nuova funzione Chiedi a Foto, è possibile comunicare con Gemini con una richiesta vocale chiedendo all’AI di effettuare una ricerca per trovare il risultato giusto.
E grazie alle capacità multimodali di Gemini è possibile ottenere risultati pertinenti anche quando le foto sono prive di alcune informazioni. L’intelligenza artificiale è infatti in grado di comprendere il contesto e il soggetto delle foto per estrarne i dettagli.
AI generativa in Ricerca Google
Con la funzione AI Overviews, la ricerca su Google diventa ancora più smart, semplice e completa. Utilizzata già miliardi di volte tramite Search Labs, questa fornisce una rapida panoramica di un argomento, con collegamenti utili per eventualmente approfondire. A partire da questo momento, la feature è disponibile per tutti gli utenti negli Stati Uniti.
Come detto, la ricerca diventa più smart e quindi gli utenti non dovranno più suddividere la propria ricerca in più domande. In altri termini, ora possono porre domande complesse senza il timore di mandare in tilt il motore di ricerca.
Altra novità particolarmente interessante, e che ha colpito tutti o quasi durante la conferenza odierna, riguarda la possibilità di registrare un video per chiedere informazioni su qualsiasi cosa, come ad esempio su un giradischi appena acquistato ma che sembra non funzionare (questo è l’esempio proposto da Google sul palco).
Grazie a Google Lens, la ricerca con un video si traduce in tempo risparmiato perché con un video, appunto, risulta ancora più semplice descrivere un problema e ottenere una panoramica con tutti i passaggi per risolverlo.
Novità per i creator, tra cui Veo
Veo è il modello più avanzato di Google per la creazione di video partendo da prompt testuali. Può generare video in Full HD (1080p) con un’ampia gamma di stili cinematografici e visivi. La durata è di oltre un minuto. L’azienda, dopo aver mostrato esempi assolutamente convincenti, ha precisato che il modello crea filmati uniformi dove persone, animali e oggetti si muovono in modo realistico durante le riprese.
Tra le altre novità c’è inoltre Imagen 3, un modello che genera immagini “con un incredibile livello di dettaglio”, con un numero di artefatti drasticamente ridotto rispetto alla versione precedente. Anche per i musicisti ci sono dei nuovi tool AI, tutti inclusi nella suite chiamata Music AI Sandbox.
Project Astra
Un’importante novità legata al futuro degli assistenti AI è Project Astra. Un agent, spiega l’azienda, deve essere in grado di capire e rispondere alla complessità e al dinamismo di ciò che circonda le persone, proprio come fanno le persone stesse. Deve poi recepire e capire ciò che vede per comprendere il contesto e, di conseguenza, agire. Infine, deve essere proattivo, istruibile e personale, perché l’utente deve poter comunicare con lui in modo naturale.
Tutto questo si è visto nella demo di Project Astra mostrata durante la conferenza, dove sono stati utilizzati sia uno smartphone che degli occhiali smart di cui quasi sicuramente sentiremo parlare in futuro.
Gemini Flash
Gemini 1.5 Flash è l’ultimo modello della famiglia Gemini ed è anche quello più veloce disponibile tramite API. È ottimizzato per attività ad alto volume e ad alta frequenza su larga scala, e nonostante sia meno potente di 1.5 Pro, ha ottime capacità di ragionamento multimodale su grandi quantità di informazioni.
Come migliora Gemini 1.5 Pro
Oltre ad aver esteso la finestra di contesto a 2 milioni di token, la società guidata da Sundar Pichai ha migliorato le esperienze di codice, il ragionamento e la pianificazione logici, la conversazione a più turni e la comprensione di audio e immagini. Considerati questi upgrade, Gemini 1.5 Pro può dunque seguire istruzioni più complesse e sfumate.
L’AI di Google integrata in Android
Dopo il debutto sugli smartphone top di gamma di ultima generazione a marchio Samsung, da questo momento la funzione Cerchia e Cerca può essere utilizzata anche dagli studenti per svolgere i compiti. «Immaginate che uno studente sia in difficoltà con un problema di matematica o fisica. Cerchiando il quesito, riceverà istruzioni dettagliate per risolverlo , senza abbandonare il programma o il foglio informativo digitale su cui sta lavorando», spiega Big G.
Nei prossimi mesi, sarà possibile spostare l’overlay di Gemini sulle app aperte per sfruttare al meglio l’AI (trascinare e rilasciare le immagini generate in Gmail oppure chiedere informazioni su un video di YouTube, ad esempio). Gli abbonati Advanced potranno anche chiedere delucidazioni su un documento PDF.
Per quanto riguarda Gemini Nano, un modello di base integrato e on-device, a partire dalla seconda metà del 2024 potrà contare su funzioni multimodali complete. In Talkback, ad esempio, aiuterà le persone cieche o ipovedenti a ricevere descrizioni più chiare sul contenuto di una immagine. Ma potrà anche avvisare l’utente in caso di frodi sospette durante le chiamate (rilevando ad esempio schemi di conversazioni comunemente associati a frodi).
Gemini Live
Nei prossimi mesi gli abbonati a Gemini Advanced avranno accesso a Live, una nuova esperienza di conversazione mobile che, sfruttando la tecnologia vocale più avanzata dell’azienda, rende più intuitive le conversazioni con l’AI.
Sarà possibile parlare al proprio ritmo e anche interrompere per chiedere chiarimenti, proprio come si fa durante una conversazione normale con una persona reale.