L’intelligenza artificiale (IA) e l’utilizzo di modelli generativi stanno rivoluzionando un ampio ventaglio di attività. Alcuni progetti basati sull’IA offrono benefici nell’immediato, altri sono esperimenti utili per sviluppare novità in ottica futura.
Ci sono poi le iniziative di scarsa valenza pratica ma di grande suggestione. È il caso di Paragraphica, una fotocamera senza obiettivo che permette di acquisire immagini grazie all’intelligenza artificiale. Paragraphica sfrutta un’idea geniale: riceve in ingresso la posizione geografica dell’utente utilizzando il posizionamento GPS quindi produce una foto che ritrae esattamente ciò che l’utente sta osservando. Per generare una foto, lo strumento si serve di API aperte. Combinando dati come condizioni meteo, ora del giorno e luoghi nelle vicinanze, è possibile creare una descrizione particolareggiata ed attendibile del posto in cui si trova fisicamente l’utente.
Paragraphica passa quindi la descrizione al noto modello Stable Diffusion per produrre una foto che, in molti casi, impressiona per qualità e precisione.
Dalla fotocamera fisica a quella basa sull’AI
Una tipica fotocamera cattura la luce attraverso l’obiettivo, la converte in segnali elettrici tramite il sensore, elabora questi segnali con il processore di immagini, salva le immagini nella memoria e le mostra sul display. La fotocamera senza obiettivo Paragraphica non fa nulla di simile e sposta tutto il carico di lavoro sul modello generativo. È di fatto “cieca” ma grazie all’AI riesce a generare immagini di grande impatto visivo.
Date un’occhiata al tweet dell’autore di Paragraphica, il danese Bjørn Karmann: nel suo messaggio Karmann mostra un prototipo di fotocamera senza lenti che permette di generare una foto impressionante proprio ricorrendo all’intelligenza artificiale.
Com’è strutturata la fotocamera senza obiettivo Paragraphica
Nel display principale, la fotocamera mostra una descrizione in tempo reale di ciò che vede l’utente. Premendo il pulsante di scatto, la fotocamera produce una rappresentazione davvero molto aderente della descrizione. La fotocamera consta di tre controlli fisici che permettono di regolare i parametri AI dei quali si serve il modello generativo.
La prima “rotellina” posta sulla fotocamera si comporta in modo simile alla lunghezza focale di una lente ottica. In questo caso, però, è possibile regolare il raggio in metri dell’area in cui la fotocamera cerca luoghi e dati rilevanti. Il secondo controllo è paragonabile alla grana della pellicola. In questo caso un valore tra 0,1 e 1 è il “seme” utilizzato dal processo di diffusione dell’immagine.
Per diffusione dell’immagine, nel campo nei modelli generativi, si fa riferimento alla tecnica utilizzata per generare o manipolare le immagini utilizzando modelli probabilistici. Il processo si basa sull’idea propagare iterativamente l’informazione attraverso una serie di passaggi. Si parte con un’immagine in input e si applica un processo di diffusione che si sviluppa nel tempo. Durante ciascun passaggio, vengono aggiornate alcune o tutte le informazioni pixel per pixel, tenendo conto delle informazioni locali e delle correlazioni tra i pixel adiacenti.
Il terzo controllo è una sorta di messa a fuoco, volendo fare un confronto con una fotocamera tradizionale. Maggiore è il valore, più “nitida” apparirà l’immagine finale.
Karmann commenta che la “foto” risultante non è solo un’istantanea, ma un riflesso complesso e sfumato del luogo in cui ci troviamo. Di fatto è un po’ come l’AI “vede” quel preciso luogo o comunque come lo “immagina”. Le foto generate dall’AI sembrano catturare alcuni stati d’animo ed emozioni trasmessi dal luogo. Il risultato è talvolta inquietante, poiché le foto non rispecchiano fedelmente il reale.
I segreti di Paragraphica: su cosa basa il suo funzionamento
Dal punto di vista tecnico, per realizzare la sua Paragraphica, Karmann ha utilizzato un single-board computer Raspberry Pi 4, uno schermo touch da 15 pollici, una custodia stampata in 3D oltre a un po’ elettronica “fai da te”. Sul versante software, la fotocamera senza lenti funziona grazie a Noodl, a codice Python e alle già citate API Stable Diffusion.
Interessante ed eloquente lo screenshot di Noodl, pubblicato dall’inventore di Paragraphica. Noodl è un software di sviluppo visuale che consente agli utenti di creare applicazioni, interfacce utente e esperienze interattive in modo rapido e intuitivo. Gli utenti possono creare applicazioni Web, app mobili, prototipi interattivi e molto altro, senza la necessità di scrivere codice da zero. Il software utilizza un approccio basato su “nodi” e “fili”, in cui i componenti visivi e le logiche di programmazione vengono collegati tra loro per creare il comportamento desiderato.
Come provare Paragraphica in modo virtuale
Karmann ha pensato anche a questo. La sua fotocamera resta un prototipo ma visitando il sito Web di Paragraphica è possibile scattare foto del luogo in cui ci si trova usando l’AI e Stable Diffusion. Il tutto usando un approccio virtuale e senza avere tra le mani alcun dispositivo fisico.
L’applicazione sviluppata dal programmatore e designer danese, infatti, usa i servizi di geolocalizzazione del browser Web per ricevere la posizione dell’utente. A quel punto, viene generata una foto con l’IA come avverrebbe utilizzando la fotocamera.
Al momento il servizio non è raggiungibile, sicuramente “caduto” sotto il peso delle troppe richieste ricevute da mezzo mondo.
Le foto utilizzate nell’articolo sono di Bjørn Karmann.