Capita spesso di trovarsi a gestire immagini di scarsa qualità: succede, ad esempio, quando una foto viene scattata con una vecchia fotocamera, quando le dimensioni dell’immagine sono troppo piccole o al file è stata applicata una compressione troppo spinta.
I tecnici del team Microsoft Turing hanno annunciato di aver sviluppato un algoritmo che permette di ottimizzare le foto di bassa qualità utilizzando l’intelligenza artificiale.
Il modello Turing Image Super-Resolution (T-ISR) viene già utilizzato in buona parte dei prodotti Microsoft, a partire dal browser Edge e dal servizio Bing Maps, per migliorare l’esperienza visiva nell’ambito di qualsivoglia campo applicativo.
L’azienda di Redmond spiega che Bing Maps utilizza il modello per migliorare la qualità delle immagini aeree che vengono consultate ogni giorno dagli utenti di tutto il mondo. Stando ai dati condivisi da Microsoft, con T-ISR le immagini aeree risultano migliiori rispetto alle corrispondenti versioni originali il 98% delle volte.
Lo stesso strumento può essere utilizzato dagli utenti di Azure che sfruttano le immagini satellitari di Azure Maps per i propri prodotti e servizi.
Con Edge, invece, Microsoft mira ad estendere il ventaglio dei possibili utilizzi di T-ISR: indipendentemente dalle pagine Web consultate, gli utenti possono beneficiare delle ottimizzazioni del modello basato sul deep learning. Il browser Microsoft riesce infatti ad adeguare automaticamente la resa delle immagini migliorandole senza alcun tipo di intervento da parte degli utenti. Edge è ancora agli inizi ma secondo i responsabili dell’azienda di Redmond i primi riscontri sarebbero più che incoraggianti.
Esempi di funzionamento del modello T-ISR sono pubblicati nella nota che Microsoft ha condiviso sul blog ufficiale.
Ciò che Microsoft sottolinea è che T-ISR integra e utilizza contemporaneamente diversi approcci per ottimizzare le immagini: essi sono molto diversi l’uno dall’altro. Il modello è stato addestrato su una quantità enorme e diversificata di dati: i miglioramenti apportati al meccanismo di deep learning riesce a gestire bene le mappe come le immagini di persone, animali ed edifici.
L’algoritmo DeepEnhance si occupa della pulizia e del miglioramento delle immagini (ottimo per trattare le immagini molto rumorose come foto altamente compresse o foto aeree scattate da satelliti a lungo raggio), DeepZoom gestisce il ridimensionamento delle immagini (invece che limitarsi a usare la cosiddetta interpolazione bicubica Microsoft ha addestrato una rete neurale convoluzionale a 200 livelli per imparare il modo migliore per recuperare i dettagli dei pixel “persi” aumentando le dimensioni di una foto) e DeepSpeed contribuisce a ridurre la latenza e la distribuzione delle immagini.