Quando si lavora con Microsoft Excel in ufficio o in azienda si può avere la necessità di importare i dati contenuti in un file PDF. Questi documenti contengono tabelle più o meno complesse il cui contenuto dovrebbe essere utilizzato all’interno di fogli di calcolo Excel.
Per convertire PDF in Excel si possono usare i tanti strumenti disponibili online e alcune applicazioni installabili in locale. Molti software sono a pagamento e spesso non consentono di raggiungere il risultato sperato.
Gli utenti di Microsoft 365 possono importare facilmente le informazioni contenute nei file PDF all’interno di qualunque foglio elettronico.
Selezionando il contenuto di una tabella da un file PDF, premendo CTRL+C
e utilizzando CTRL+V
la formattazione della tabella viene puntualmente persa con le intestazioni e i dati che “fluttuano” nelle varie celle in un’incomprensibile accozzaglia di informazioni.
Convertire PDF in Excel con Power Query
Power Query è uno strumento molto potente che è stato via via aggiornato dai tecnici Microsoft con il rilascio delle nuove versioni di Excel. Ne abbiamo parlato nel dettaglio nell’articolo dedicato a come funziona Power Query in Excel.
Gli abbonati a Microsoft 365 possono usare Power Query per importare rapidamente i dati dalle tabelle contenute nei file PDF.
La procedura di base è davvero molto semplice: basta fare clic sulla scheda Dati quindi selezionare Dati, Recupera dati, Da File, Da PDF.
Basta quindi selezionare il documento PDF contenente le informazioni da importare in Excel e attendere la comparsa dello Strumento di navigazione.
Qui Excel mostra, nella colonna di sinistra, tutte le pagine e le tabelle che compongono il documento PDF. Si può quindi ad esempio selezionare una tabella e cliccare il pulsante Trasforma dati per importarla automaticamente in Excel.
Nella finestra dell’editor di Power Query che appare in Excel si possono eventualmente personalizzare i nomi delle colonne di intestazione e, facendo riferimento alle proprietà visualizzate sulla destra, assegnare una denominazione ai dati convertiti.
Cliccando su Chiudi e carica e infine su Chiudi e carica in i dati vengono importati nel foglio elettronico: si può indicare il foglio preferito oltre alla cella dalla quale dovrà partire l’importazione.
Il bello di questo approccio è che nel caso in cui il file PDF dal quale si sono importati i dati venisse aggiornato, rieseguendo la Power Query in Excel il foglio elettronico viene adeguato di conseguenza. L’importante è sovrascrivere il file originale mantenendo lo stesso nome a livello di file system; diversamente le modifiche non verrebbero prese in carico.
Per aggiornare i dati è sufficiente fare clic con il tasto destro sugli stessi quindi scegliere Aggiorna.
Può capitare che il convertitore da PDF integrato in Excel inserisca righe vuote: in questo caso appaiono valori Null in alcune colonne. La situazione è facilmente gestibile cliccando sulla freccia a destra di una colonna quindi applicando un filtro: in questo modo, disattivando la casella corrispondente, si potranno eliminare le righe vuote e i valori Null.
Nel caso in cui una stessa stringa fosse suddivisa in più colonne quando invece dovrebbe apparire in una sola cella come unica frase, dall’editor di Power Query basta selezionare la prima colonna cliccando sulla sua intestazione quindi spostarsi verso destra tenendo premuti i tasti MAIUSC
e freccia destra
. Cliccando con il tasto destro e selezionando Merge di colonne si può correggere “la svista” di Excel commessa in fase di importazione dei dati.
Se si dovessero gestire situazioni ancora più complesse come tabelle molto lunghe che si sviluppano su più pagine del documento PDF, un trucco eccezionale consiste nello scegliere l’intero file nella finestra Strumento di navigazione (in questo caso la cartella Factbook_2019.pdf) quindi fare clic su Trasforma dati.
In questo caso, tramite la finestra dell’editor Power Query, si può agire sulla freccia a destra di Kind e scegliere solo la casella Table in modo da importare in Excel esclusivamente il contenuto delle tabelle presenti nel documento PDF.
Usando i pulsanti Mantieni righe e Rimuovi righe si possono conservare o rimuovere una o più tabelle in modo tale da scegliere soltanto quelle che dovranno essere sfruttate per comporre il foglio elettronico Excel.
Di solito si possono cancellare tutte le colonne tranne quella che reca l’intestazione Data.
Convertire più PDF in Excel memorizzati in una stessa cartella
Ipotizziamo di avere tanti file PDF contenenti dati e tabelle memorizzati nella stessa cartella. Anche in questo caso Excel contiene tutto il necessario per importare i dati dai documenti PDF.
Per iniziare basta cliccare su Dati, Recupera dati, Da File, Da cartella: dopo aver scelto la cartella contenente i PDF si deve fare semplicemente clic sul pulsante Trasforma dati.
Cliccando sul piccolo pulsante (doppia freccia) a destra dell’intestazione Contenuto si ha accesso al contenuto di ciascun file PDF: i dati vengono combinati tramite Power Query a comporre un unico foglio di calcolo.
La prima colonna mostra il nome del file dal quale è stato estratto ciascun dato: un’informazione che può risultare utile per evidenziare le varie informazioni in modo differente all’interno del foglio elettronico Excel.
Come visto in precedenza, con un clic su Chiudi e carica i dati verranno automaticamente importati e aggiornati nel caso in cui uno o più file PDF dovessero cambiare in termini di contenuto.
Il bello è che aggiungendo nuovi file PDF nella cartella che Excel controlla attraverso Power Query, i dati nel foglio elettronico saranno inseriti in automatico.