C’era una volta un progetto, nato – in collaborazione con HP – all’Università del Nevada, Las Vegas. Era il 1985. L’obiettivo consisteva nello sviluppare un OCR (sistema di riconoscimento ottico dei caratteri) che operasse correttamente con tutti i generi di testo stampato. “Tesseract OCR”, questo il nome del progetto, con la diffusione del web cominciò paradossalmente a perdere terreno probabilmente soprattutto a causa della riorganizzazione di HP.
Vent’anni dopo arrivò Google. Il colosso di Mountain View nel 2005 ha deciso di far rinascere il progetto Tesseract OCR contribuendovi con aggiornamenti ed interventi correttivi tanto che il mese scorso l’azienda ha posto le basi per il rilascio di una nuova versione del software.
I problemi di fondo sono però due: il primo riguarda la licenza d’uso. Tesseract, infatti, sfrutta un componente gratuito denominato Aspirin/MIGRAINES, creato dall’ingegnere Russell Leighton. Aspirin non è un prodotto opensource: ciò potrebbe causare qualche impedimento per gli sviluppatori che volessero integrare Tesseract nei rispettivi applicativi. Il secondo problema riguarda le abilità di riconoscimento dei caratteri: Tesseract è considerato come l’OCR più performante mai sviluppato sino ad oggi ma presenta diverse lacune nell’interpretare correttamente caratteri speciali, non standard o comunque non facenti parte dell’alfabeto inglese.
La pagina di riferimento di Tesseract OCR su SourceForge è raggiungibile cliccando qui.
Google fa rinascere Tesseract OCR
C'era una volta un progetto, nato - in collaborazione con HP - all'Università del Nevada, Las Vegas.