A Settembre dello scorso anno, Google aveva deciso di far rinascere “Tesseract OCR”, progetto nato all’Università del Nevada nel 1985, con la collaborazione di HP, che aveva come obiettivo lo sviluppo di un OCR (sistema di riconoscimento ottico dei caratteri) che operasse correttamente con tutti i generi di testo stampato.
Oltre vent’anni dopo il colosso di Mountain View ha reso pubblico il suo interesse sulla tecnologia OCR contribuendovi con aggiornamenti ed interventi correttivi in modo tale da gettare le basi per il rilascio di una nuova versione del software.
Con un annuncio pubblicato nella giornata di ieri, Google ha deciso di “sponsorizzare” il progetto OCRopus che verrà sviluppato presso l’IUPR (“Image Pattern and Image Recognition”), gruppo di ricerca istituito presso l’Università di Kaiserslautern, in Germania. Il motore di OCRopus poggia su un sistema di riconoscimento caratteri piuttosto avanzato sviluppato a metà degli anni ’90 e su innovative metodologie per l’analisi del layout di pagina messe a punto di recente.
Google ha già reso disponibile una prima versione di anteprima del prodotto che però opera per il momento soltanto su sistemi Linux e sfrutta direttamente “Tesseract OCR”. in questa pagina gli interessati possono documentarsi sulla procedura d’installazione.
OCRopus è sviluppato su piattaforma Linux Ubuntu 6.10 in C++ e Python: inizialmente è proprio Linux il sistema di riferimento scelto; il software verrà poi successivamente portato sugli altri sistemi. La pagina dedicata a OCRopus sul sito di Google è questa.
Google investe sulle tecnologie per il riconoscimento caratteri
A Settembre dello scorso anno, Google aveva deciso di far rinascere "Tesseract OCR", progetto nato all'Università del Nevada nel 1985, con la collaborazione di HP, che aveva come obiettivo lo sviluppo di un OCR (sistema di riconoscimento ottic...