Due gruppi di ricercatori, l’uno operativo presso i laboratori di Google, l’altro presso la Stanford University, hanno messo a punto un algoritmo in grado di rendere un computer capace di riconoscere e descrivere il contenuto di un’immagine o di un video, con un elevato grado di accuratezza. Fino ad oggi la cosiddetta visione artificiale era limitata al riconoscimento del singolo oggetto e non di un’intera scena, anche animata.
Una volta esaminata la foto o la sequenza filmata, il software messo a punto da Google e dagli accademici di Stanford propone una descrizione in lingua naturale, molto precisa e prodotta in un inglese fluente.
La prima applicazione pratica, è evidente, riguarda la catalogazione automatica delle immagini pubblicate sul web. Google, infatti, per catalogare le immagini trovate sul web dal motore di ricerca si è sempre affidato al nome del file ed al contesto in cui le stesse foto sono utilizzate (contenuti delle pagine Internet).
D’ora in avanti l’approccio utilizzato potrebbe essere destinato a cambiare grazie ad un’interpretazione più puntuale di ogni singola immagine.
Tra i primi a parlare del nuovo algoritmo, che avrà ovvi impatti anche sulle soluzioni di intelligenza artificiale, è stato infatti Matt Cutts – “guru” di Google che conosce a menadito i “segreti” del motore di ricerca e che ha spesso fornito suggerimenti sul suo corretto utilizzo, anche in ottica SEO -.
Computers are starting to deliver reasonable captions for images: http://t.co/BatxOmHjAq
— Matt Cutts (@mattcutts) 18 Novembre 2014
In questo post pubblicato sul blog ufficiale di Google alcuni esempi di foto sottoposte al software per il riconoscimento automatico. Certo, non tutte le immagini vengono correttamente interpretate ma il lavoro che è stato sin qui condotto sulle reti neurali convoluzionali porterà presto i suoi frutti.
Gli studi elaborati da Google e a Stanford sono consultabili, rispettivamente, a questo indirizzo e in questa pagina.