Lo scorso anno avevamo dato notizia degli investimenti di Google nelle tecnologie di riconoscimento ottico dei caratteri (OCR). In particolare, in un primo tempo, il colosso di Mountain View aveva deciso di far rinascere il progetto “Tesseract OCR”, avviato presso l’Università del Nevada nel 1985 con la collaborazione di HP e che aveva come obiettivo lo sviluppo di un OCR in grado di operare correttamente con tutti i generi di testo stampato. Successivamente decise di “sponsorizzare” il progetto OCRopus, sviluppato presso l’IUPR (“Image Pattern and Image Recognition”), gruppo di ricerca istituito presso l’Università di Kaiserslautern, in Germania. Il motore di OCRopus poggia su un sistema di riconoscimento caratteri piuttosto avanzato sviluppato a metà degli anni ’90 e su innovative metodologie per l’analisi del layout di pagina messe a punto più di recente (ved. queste notizie per maggiori informazioni).
OCRopus sfrutta il motore di Tesseract (in questo articolo abbiamo spiegato come usare, semplicemente, Tesseract insieme con il software gratuito Free OCR) per il riconoscimento dei caratteri ma fa perno su di un sistema proprietario per migliorare l’accuratezza dei risultati.
Il vivo interesse di Google nei confronti delle tecnologie OCR trova giustificazione in un annuncio reso dall’azienda in questi giorni: la volontà di aggiungere al proprio motore di ricerca anche il contenuto dei file PDF prodotti a partire da testi acquisiti da scanner e quindi salvati ed inseriti nel documento sotto forma di immagine.
Al momento non è dato sapere quanti file PDF il motore di ricerca abbia già provveduto automaticamente ad analizzare, durante la scansione del web, sottoponendoli all’azione di OCRopus.