Demis Hassabis, amministratore delegato di Google DeepMind, ha rivelato di aver avuto in mente per anni una visione, quella di un “assistente universale multimodale che è con noi per tutto il tempo”. Ebbene, questo assistente è stato mostrato per la prima volta alla conferenza I/O 2024 e il suo nome, per il momento, è Project Astra.
Project Astra è il nuovo assistente AI di Google che è davvero al servizio delle persone
Project Astra è a tutti gli effetti un assistente AI multimodale universale che può vedere il mondo reale e rispondere a domande di ogni genere. Nel corso dell’evento (qui le principali novità) è stato mostrato un video girato all’interno degli uffici di Big G di Londra, una demo senza tagli “furbi” che ha lasciato tutti senza parole: l’assistente si mostra in grado di identificare un componente di un altoparlante, di analizzare e contestualizzare un codice, di risolvere rebus e anche di ricordare la posizione di un oggetto inquadrato in precedenza. Il tutto comunicando con l’utente in un tono assolutamente naturale, quasi come se fosse una persona reale.
Secondo il dirigente Google, con il passare degli anni si penserà all’intelligenza artificiale non per i modelli che ne sono alla base, ma per quello che possono fare per noi. Che è un po’ la storia degli agenti presentati alla I/O di quest’anno. La demo di Project Astra rivela che, per quanto il modello alla base sia di fondamentale importanza (e anche di interesse), l’attenzione è rivolta a ciò che l’AI può effettivamente fare al posto dell’utente, andando oltre il semplice scambio di battute.
Hassabis ha capito che la sua visione sarebbe diventata realtà quando è stato presentato Gemini 1.5 Pro, che è l’ultimo modello linguistico lanciato da Google. Riferendosi a Project Astra, Hassabis rivela che “questi elementi c’erano già oltre sei mesi fa“, ma che c’erano problemi riguardanti latenza e velocità che rendevano inutilizzabile l’assistente AI. Per questo motivo, migliorare il modello è stato uno dei compiti più importanti del team negli ultimi sei mesi circa. Il duplice obiettivo (poi centrato) era aggiornare il modello e, allo stesso tempo, ottimizzare l’infrastruttura per garantire il funzionamento su larga scala. «Questo è qualcosa che Google sa fare molto bene!», ha dichiarato infine Hassabis nel corso dell’intervista con David Pierce di The Verge.