Come creare un OCR per immagini e PDF nel browser Web

Spesso i file PDF sono utilizzati come “contenitori” di immagini acquisite tramite scanner o mediante un dispositivo mobile, quale può essere lo smartphone. Questo aspetto diventa evidente perché se si prova a selezionare testo con l’intento di copiarlo altrove, l’operazione non risulta possibile. Anche in assenza di qualunque forma di protezione sul documento PDF.

La motivazione principale deriva proprio dal fatto che il file PDF ospita delle immagini, non sottoposte a OCR (riconoscimento ottico dei caratteri).

Un’ulteriore riprova può essere effettuata premendo la combinazione di tasti CTRL+F mentre si visualizza il PDF: inserendo una parola o una frase leggibili nel documento, queste non saranno individuate.

Creare un OCR integrato nel browser Web: elabora in locale PDF e immagini

Simon Willison ha presentato un’interessante e utile applicazione che consente di eseguire l’OCR direttamente nel browser, senza la necessità di caricare i file su un server remoto. Esperto di data journalism, Willison aveva bisogno di uno strumento facile da usare per estrarre dati da PDF e immagini.

Purtroppo, i tool disponibili risultano poco pratici per la maggior parte degli utenti quindi lo sviluppatore ha deciso di realizzarne uno in proprio, cogliendo le opportunità offerta da due librerie JavaScript: Tesseract.js per l’OCR e PDF.js, per l’elaborazione dei file PDF direttamente nel browser.

Il bello dell’applicazione Web sviluppata da Willison è che essa consente di eseguire l’OCR su immagini e PDF trascinando le risorse direttamente oppure passandole come file in input.

Un aspetto cruciale del progetto è la sua implementazione completamente client-side: non vi è alcun componente server e i file dell’utente non lasciano mai il suo dispositivo. Questa caratteristica garantisce massima sicurezza e riservatezza dei dati personali.

Come funziona il modulo OCR da browser

Il funzionamento dell’applicazione è semplice ed intuitivo: trascinando un file PDF o un’immagine, essa visualizza il testo corrispondente. Nel caso di un file PDF, ogni pagina è convertita in un’immagine e visualizzata sequenzialmente, con il testo riconosciuto dall’OCR al di sotto di ogni pagina.

Nel repository GitHub è disponibile il codice sorgente completo del progetto: chiunque può eseguire l’applicazione in proprio e in locale.

Willison ha descritto anche il processo di sviluppo del progetto, che ha avuto inizio con la creazione di un prototipo iniziale in pochi minuti, utilizzando la tecnologia Claude 3 Opus. L’esperto conferma quindi il ruolo centrale dei moderni modelli generativi nella creazione dello “scheletro” dei nuovi progetti. Come abbiamo osservato altrove, infatti, l’intelligenza artificiale non spazza via la programmazione e non può farlo. Sarebbe ottuso ritenere che l’IA possa sostituirsi completamente al lavoro di supervisione e verifica svolto da persone in carne ed ossa.

Il codice è stato successivamente ottimizzato tramite l’utilizzo di ChatGPT, che ha permesso di apportare miglioramenti e correzioni in modo rapido ed efficiente.

Riconoscimento OCR in-browser: una soluzione sviluppata combinando lo sviluppo tramite IA e fine tuning “umano”

Lo stesso Willison ha sottolineato la sua soddisfazione nel vedere il progetto completato con successo, grazie alla collaborazione tra le tecnologie di sviluppo basate sull’IA e l’intervento umano nell’ottimizzazione finale. L’applicazione rappresenta un punto di svolta nell’ambito dell’estrazione di dati da documenti digitali, offrendo agli utenti uno strumento potente, facile da usare e completamente sicuro per le proprie informazioni personali.

Con il suo strumento OCR integrato nel browser, Willison ha mostrato che è possibile ottenere risultati eccellenti senza la necessità di ricorrere a complicati processi di elaborazione dati su server remoti. Ancora una volta, è possibile beneficiare del lavoro svolto da Willison per spingere l’acceleratore sul concetto di sovranità del dato, concetto caro al legislatore europeo e a un sempre più ampio numero di professionisti e aziende.

In un altro articolo abbiamo visto come copiare testo da un PDF senza difficoltà, usando anche in questo caso un eccellente software open source.

Credit immagine in apertura: iStock.com – juststock