Qualche tempo fa vi avevamo parlato del progetto di NVidia la cui intelligenza artificiale generava immagini fotorealistiche partendo da semplici descrizioni. Il lavoro svolto dai tecnici di NVidia, che hanno addestrato una rete neurale per produrre immagini di qualità quanto più vicine alla descrizione fornita dagli utenti, è stato poi integrato anche in NVidia Canvas per creare foto a partire da disegni e schizzi elementari.
Anche il team di Microsoft-OpenAI ha sviluppato una soluzione (DALL-E 2) che crea immagini a partire da descrizioni testuali ma Google, nel frattempo, ha presentato il progetto Imagen mostrando un ricco assaggio dei risultati ottenibili.
Visitando il sito del progetto ci si accorge subito di come le immagini di qualità vengano create a partire anche da descrizioni piuttosto articolate o addirittura bizzarre.
Il sistema unisce due strumenti che nell’ultimo periodo hanno fatto segnare enormi passi in avanti: da un lato ci sono le tecniche di imaging basate sull’intelligenza artificiale che compongono e perfezionano per passi successivi le immagini effettuando una valutazione in tempo reale sulla resa finale.
Dall’altro lato c’è la comprensione della semantica ovvero del significato intrinseco di parole e frasi attraverso modelli linguistici di grandi dimensioni.
Google Imagen inizia generando un’immagine piccola (64 x 64 pixel) e quindi esegue due passaggi di “super risoluzione” per portarla a 1024 x 1024 pixel. Non si tratta del normale upscaling perché l’approccio scelto dai tecnici di Google aggiunge nuovi dettagli in grado di “armonizzare” e miscelarsi con l’immagine più piccola, quest’ultima usata come base di partenza.
Nel documento tecnico elaborato da Google i risultati di Imagen sono stati confrontati con quelli di DALL-E 2.
Secondo l’azienda di Mountain View, Imagen sarebbe uscito vittorioso nei test di valutazione, sia in termini di accuratezza che di fedeltà. I giudizi sono soggettivi ma anche eguagliare i risultati offerti da DALL-E 2, fino ad oggi considerato un enorme balzo in avanti rispetto a tutto il resto, è davvero impressionante.
Al momento Google ha preferito non condividere pubblicamente l’accesso a Imagen: il sistema eredita i limiti dei modelli linguistici di grandi dimensioni quindi c’è il rischio concreto che qualche utente possa utilizzare la soluzione appena presentata con finalità non propriamente cristalline.
Per adesso l’unica cosa che si può fare per toccare con mano il funzionamento di Imagen è comporre una frase preconfezionata cliccando sulle diverse varianti al di sotto del paragrafo Click on a word below and Imagen.
DALL-E 2, invece, pur essendo ancora un progetto in divenire è comunque utilizzato da migliaia di persone che si sono iscritte al programma di testing. In questo senso l’iniziativa di Microsoft-OpenAI è una spanna avanti.