TextBridge Pro 9.0: il riconoscimento caratteri professionale

[img1]I software di riconoscimento ottico del carattere (OCR) hanno fatto in poco tempo passi da gigante.
TextBridge Pro 9.0: il riconoscimento caratteri professionale

I software di riconoscimento ottico del carattere (OCR) hanno fatto in poco tempo passi da gigante. A beneficio dei lettori che non dovessero conoscere il significato della tecnologia OCR, spieghiamo brevemente che trattasi di una interessante possibilità offerta da speciali programmi che permettono di convertire documenti cartacei in testi completamente modificabili mediante il personal computer.

Abbiamo accennato alle eccezionali migliorie che sono state introdotte all’interno dei software OCR: alcuni di essi sono in grado oggi non solo di eseguire un semplice riconoscimento dei caratteri contenuti in un dato testo, ma anche di effettuare un riconoscimento del documento di tutto rispetto. Ciò significa che tali programmi non si limitano ad acquisire solo il testo ma (udite, udite!) anche a ricreare, direttamente all’interno del proprio wordprocessor preferito (come, per esempio, Microsoft Word), la stessa formattazione, le stesse intestazioni, gli stessi pié di pagina, tabelle, grafici presenti nel documento originario.

TextBridge Pro 9.0 è, a nostro parere, il leader fra i programmi di riconoscimento caratteri, permettendo di trasformare in modo molto accurato qualunque pagina cartacea in documenti digitali.
Ciò è possibile grazie ad una serie di funzionalità insite all’interno del programma che garantiscono, nella maggior parte dei casi, la produzione di un documento elettronico – interamente modificabile e rielaborabile – che risulta assai vicino al layout di pagina originario.

Abbiamo voluto mettere alla prova TextBridge Pro 9.0 proponendogli il riconoscimento, non solo di documenti di buona qualità ma anche di pagine poco leggibili, come fotocopie, fotocopie di fotocopie e fax piuttosto scadenti.
Non contenti dei già molto buoni risultati ottenuti, abbiamo provato a mettere ulteriormente sotto torchio il programma, affidandogli il riconoscimento di una pagina di rivista e di un foglio di giornale che, come il lettore può facilmente comprendere, presentano un layout molto complesso a cui si deve aggiungere, nel caso del giornale, una qualità di carta scadente. In ogni caso il programma ha offerto buoni risultati.
Vedremo più avanti in dettaglio ciò che emerso da ogni singolo test.

Nella maggior parte dei casi TextBridge comprende il formato originale dei documenti e ne mantiene il layout (incluse colonne, intestazioni, pié di pagina, immagini e didascalie). Le immagini presenti all’interno del testo originario possono essere indifferentemente a colori, in scala di grigi ed in bianco e nero.
Va tenuto presente che TextBridge comunica al programma installato che si usa per elaborare i testi tutti i parametri riguardanti formattazione del testo, elementi grafici, tabelle e così via. Se il programma di elaborazione testi che si usa non è in grado di ricreare correttamente il layout originale, così come indicato da parte di TextBridge, è possibile che il riconoscimento non sia soddisfacente. Microsoft Word e Corel WordPerfect sono, per esempio, in grado di effettuare una ricomposizione accurata. Risulta evidente che, per esempio, il Blocco Note di Windows non è assolutamente indicato.

Prima esecuzione

Ad installazione conclusa, dopo il primo avvio del programma, TextBridge richiede se si desidera effettuare una serie di test per lo scanner. Moltissimi sono gli scanner supportati: in nessun caso abbiamo avuto problemi di dialogo con i driver TWAIN con i quali TextBridge colloquia egregiamente.

Il programma può essere avviato in modalità “stand-alone” oppure utilizzando la funzione Instant Access che permette di utilizzare TextBridge direttamente da una serie di programmi installati quali Word, WordPerfect, Lotus Word, Ami Pro e tanti altri. La funzione Instant Access è raggiungibile selezionando la voce “TextBridge” aggiunta all’interno del menù File di tali programmi. TextBridge viene automaticamente eseguito, viene effettuato il riconoscimento del documento, quindi il risultato dell’operazione viene incollato nella posizione occupata dal cursore nel documento aperto.

TextBridge consente di impostare un gran numero di programmi all’interno dei quali deve essere inserita la funzionalità Instant Access.

Sin dal primio avvio l’interfaccia del programma risulta subito molto amichevole. Nella finestra principale sono presenti solo i pulsanti che permettono di eseguire le funzioni di base del programma ossia acquisizione da scanner (o da una immagine) del documento, riconoscimento e ricomposizione del layout originale, memorizzazione sul disco rigido del risultato ottenuto.
Primo fra tutti, campeggia il pulsante Autom. (“automatico”) che permette di rendere completamente automatica l’intera procedure di riconoscimento e ricomposizione del documento.
Abbiamo tuttavia già evidenziato le enormi possibilità di miglioramento del riconoscimento delle pagine acquisite, offerte da TextBridge. Agendo manualmente su una serie di opzioni (impostazioni della pagina originale, impostazioni dello scanner, impostazioni di elaborazione) si potrà aumentare sensibilmente il grado di accuratezza dell’OCR.

TextBridge è capace di riconoscere un’ampia varietà di pagine. Selezionando nell’apposita finestra il tipo di pagina che più si avvicina al documento originale, si potranno ottenere risultati migliori: il programma imposta infatti il driver di acquisizione dello scanner secondo le modalità più adatte in ogni particolare circostanza.

Al lavoro

Abbiamo messo alla prova TextBridge proponendogli il riconoscimento di tutta una serie di documenti diversi fra loro, ciascuno di essi contenente una particolare prerogativa.
Una semplice pagina di testo dattiloscritto, caratterizzata da caratteri in grassetto ed in corsivo, da rientri e giustificazioni non ha creato particolari problemi al programma OCR che si è ben comportato.

Per quanto riguarda il riconoscimento di una pagina fax, il risultato non è stato del tutto entusiasmante: alcune parole presentavano, al termine dell’operazione di acquisizione e riconoscimento, formattazioni differenti rispetto al testo in cui erano inserite. Ciò è tuttavia da imputarsi alla cattiva qualità che in genere contraddistingue il documento fax. Anche lo scanner di qualità non è infatti a volte in grado di acquisire correttamente pagine fax a causa della confusione determinata dalla presenza di righe, di zone chiare e di altre più scure.
TextBridge si è ben difeso offrendo un documento finale che, aiutandosi con l’evidenziazione delle parole sospette e con qualche modifica al layout di pagina, l’utente può agevolmente riavvicinare alla pagina originale.

La successiva prova si è articolata nella preparazione di una pagina multicolonna di buona qualità contenente, fra l’altro, una tabella, una immagine a colori ed un testo inverso (in negativo).
In questo caso abbiamo ottenuto un ottimo risultato: TextBridge ha ricreato in modo pressoché perfetto il layout di pagina commettendo anche pochissimi errori nel riconoscimento dei caratteri.
Il testo inverso (testo bianco su sfondo nero) è stato riconosciuto e trattato in modo soddisfacente e la tabella è stata ricreata rispettando numero di righe e colonne nonché disposizione del testo nelle varie celle.

Non contenti abbiamo ulteriormente messo sotto torchio il programma proponendo il riconoscimento di una pagina di giornale. In particolare, abbiamo provato ad acquisire la prima pagina di un supplemento de “Il Sole 24 Ore”. Considerando la bassa qualità della carta utilizzata in un quotidiano e la complessità del layout di pagina (il testo è disposto in modo irregolare, sono presenti immagini, didascalie, titoli differenti), TextBridge si è ottimamente comportato riproducendo in modo molto fedele la pagina acquisita.

La pagina di giornale è stata posizionata sullo scanner in modo poco felice. Prima di effettuare il riconoscimento dei caratteri, TextBridge ha automaticamente provveduto ad orientare correttamente l’immagine della pagina acquisita.

L’operazione successiva consiste nel riconoscimento del testo. Il programma evidenzia, in tempo reale, le regioni dell’immagine che vengono analizzate: è così possibile sapere sempre che cosa il programma sta facendo.

Al termine dell’operazione di riconoscimento dei caratteri, TextBridge passa alla ricomposizione del layout di pagina originale. Il programma provvede a riconoscere le zone contenenti testo, immagini o tabelle. Se si elabora una pagina in modalità automatica, il programma esegue autonomamente queste operazioni. In modalità manuale è possibile contrassegnare le zone direttamente oppure utilizzare l’apposito comando Trova zone per far eseguire la ricerca automatica a TextBridge.

TextBridge rappresenta tutte le pagine dei documenti acquisiti anche sotto forma di piccole immagini dette miniature. Esse rendono più semplice selezionare e rielaborare una pagina mal riuscita, inserire od eliminare una pagina, riordinare le varie pagine oppure riconoscere una pagina specifica.

Al termine dell’operazione di riconoscimento caratteri e ricomposizione del layout di pagina, TextBridge permette di memorizzare il documento utilizzando uno dei molteplici formati disponibili oppure di passarlo direttamente ad una particolare applicazione.

La precisione della scansione e del riconoscimento dei caratteri e del testo è garantita anche dalla presenza delle funzionalità di verifica dello spelling che consentono di identificare in modo rapido le parole sospette in modo da offrire all’utente tutte le possibili versioni corrette. Il dizionario è liberamente ampliabile: ciò facilita l’inserimento di termini di uso non comune, di termini tecnici o nomi propri frequentemente presenti nei testi che si sottopongo all’OCR.

Le parole che TextBridge sospetta di non aver riconosciuto correttamente vengono infatti evidenziate con un particolare colore. Portando il puntatore del mouse in un qualsiasi punto del documento, TextBridge mostra la porzione interessata del documento originale, acquisito tramite scanner. Ciò permette una correzione degli errori e delle imperfezioni ancor più semplice e veloce.

Conclusioni

TextBridge permette di raggiungere, in breve tempo, risultati fino a poco tempo fa assolutamente inconcepibili.
I test condotti hanno messo in luce una spiccata abilità non solo nel riconoscimento dei caratteri ma anche nel riconoscimento vero e proprio del documento originale: il programma è sempre stato in grado di ricreare tutti gli elementi delle pagine acquisite, anche di quelle più complesse.

Una gestione flessibile dei documenti multipagina, la possibilità di acquisire pagine affiancate gestendole così come se fossero separate, una interfaccia utente impeccabile, completa, facile da usare ed assai immediata, contribuiscono a rendere TextBridge un prodotto molto versatile, ideale sia per coloro che non sono molto esperti e che preferiscono effettuare una scansione solo con un clic, sia per i più smaliziati che, agendo opportunamente sui molteplici parametri di configurazione, si assicureranno risultati ancor più accurati.

Ricordiamo anche la presenza di un simpatico assistente che illustra all’utente come utilizzare le funzionalità dell’OCR.

Il manuale contenuto nel pacchetto è chiaro e completo.

Il pacchetto costa 199.000 Lire – IVA compresa.

Ti consigliamo anche

Link copiato negli appunti