NVidia sta investendo molto sull’intelligenza artificiale grazie anche alla potenza computazionale offerta dalle sue GPU.
Una nuova dimostrazione di ciò che è possibile fare ricorrendo al deep learning (vedere Intelligenza artificiale, cos’è e qual è la differenza con il machine learning) è stata appena pubblicata illustrando il risultato del lavoro condotto dagli ingegneri di NVidia e da un team di ricercatori della Cornell University.
Questo documento scientifico illustra un nuovo approccio che permette di ricostruire le informazioni mancanti all’interno di qualunque tipo di immagine.
L’intelligenza artificiale combina le informazioni presenti nell’immagine (quelle che non risultano danneggiate) con quelle conservate nei suoi database e le unisce per ottenere il risultato migliore possibile.
La rete neurale costruita da NVidia consente all’intelligenza artificiale di “comprendere” ciò che è ritratto in un’immagine danneggiata, di sviluppare un repainting model e di aggiungere le parti mancanti così che la foto finale non sembri affatto generata da un computer.
Secondo i tecnici di NVidia lo studio appena presentato ben evidenzia come i modelli di repainting basati su algoritmi di deep learning siano estremamente efficaci anche per gestire forme irregolari in cui manca completamente l’informazione.
Per le elaborazioni in tempo reale, NVidia e gli studiosi della Cornell hanno combinato l’utilizzo di diverse schede Tesla V100 e fatto ricorso a PyTorch, framework per il deep learning realizzato in Python che permette la creazione di reti neurali e la gestione dei tensori, oltre che alla libreria cuDNN (CUDA Deep Neural Network).
Quando si osserva il video (lo ripubblichiamo di seguito) che mostra il risultato degli interventi dell’intelligenza artificiale sulle parti mancanti delle immagini non ci si deve fermare alla superficie. Gli occhi applicati sul volto di Ernest Borgnine nella parte finale della dimostrazione non sono probabilmente la scelta migliore ma ciò è avvenuto semplicemente perché l’addestramento avrebbe dovuto essere stato sviluppato usando un database molto più ampio.
Fornendo a una rete neurale un numero sufficientemente grande di campioni di immagini, è possibile infatti fare in modo che la funzione che trova le porzioni di immagine con caratteristiche simili restituisca risultati apprezzabili. Già “comprendere” la struttura di un volto ed effettuare le opportune sostituzioni, “capire” la disposizione degli oggetti e di elementi architettonici, di ciò che compone un paesaggio non è affatto cosa da poco e anzi rappresenta il raggiungimento di un traguardo importante.
Le applicazioni oggi disponibili che permettono di rimuovere oggetti dalle immagini (Come eliminare oggetti dalle foto con alcune app Android) di solito attivato una funzione “timbro” ottimizzata ovvero prendono altre parti dell’immagine e le ripropongono nelle zone in cui manca l’informazione oppure si vuole nascondere un elemento indesiderato.
La soluzione presentata da NVidia, invece, tenta di approssimare la foto originale completando l’immagine presa in esame con le informazioni mancanti con un processo che cerca di utilizzare la migliore approssimazione (si dice che la rete neurale cerca di inferire il comportamento).