Nell’ambito del programma SafeDocs di DARPA, i data scientist del Jet Propulsion Laboratory (sezione della NASA) hanno accumulato circa 8 milioni di file PDF: di fatto, il più grande archivio al mondo di questi file.
Il motivo di questa singolare archivio è uno studio su vasta scala per rendere Internet un posto più sicuro. Il JPL della NASA, noto ai più per l’atterraggio del rover su Marte e l’esplorazione del sistema solare con sonde robotiche, sembra essersi concentrata su problemi ben più terreni. Tale sezione della celebre agenzia americana, infatti, si occupa anche del mondo digitale.
L’archivio open source è disponibile al pubblico ed è frutto di una collaborazione con la PDF Association. Una scelta, quella dei file con estensione PDF, che non dovrebbe sorprendere: questi file, tanto utili quanto diffusi, rappresentano uno degli strumenti preferenziali per le attività losche dei cybercriminali.
8 milioni di file PDF raccolti dalla NASA: l’obiettivo è maggiore sicurezza online
Come spiega Tim Allison, data scientist presso JPL “I PDF sono utilizzati ovunque e sono importanti per contratti, documenti legali, progetti di ingegneria 3D e molti altri scopi. Sfortunatamente, sono complessi e possono essere compromessi per nascondere codice dannoso o rendere informazioni diverse per utenti diversi in modo dannoso. Per affrontare queste e altre sfide dei PDF, è necessario raccogliere da Internet un ampio campione di PDF del mondo reale per creare una risorsa condivisa e disponibile gratuitamente per gli esperti di software“.
La costruzione di questo enorme database non è stata per nulla semplice. Il team capitanato da Allison, ha utilizzato Common Crawl, un repository pubblico open-source di dati ottenuti tramite web crawling. L’operazione, che come detto ha portato a identificare 8 milioni di file, è avvenuta a cavallo tra luglio e agosto 2021.
Oltre al contenuto dei documenti, sono stati archiviati altri metadati che riguardano ogni singolo PDF. In tal senso, per esempio, per ognuno di essi è stato individuato il software utilizzato per la creazione. Nel complesso, l’archivio e i dati relativi ai file occupa uno spazio che si aggira intorno ai 8 terabyte.
Quali sono i risultati che JPL intende ottenere con l’archivio?
Il database farà molto di più che aiutare gli esperti a identificare le minacce. I ricercatori sulla privacy, ad esempio, potrebbero studiare questi file per determinare come migliorare il software di creazione e modifica dei file per proteggere meglio le informazioni contenute in essi.
Gli sviluppatori di software potrebbero utilizzare i file per trovare bug nel loro codice e per verificare se le vecchie versioni del software sono ancora compatibili con le versioni più recenti dei PDF.
Simson Garfinkel, il creatore di un simile archivio nel 2008, con un database da 1 milione di file, ha affermato come “Il PDF è oggi uno dei tipi di file più importanti su Internet e questo contributo di circa 8 terabyte di dati fornisce a docenti, studenti e aziende dati di riferimento aggiornati che alimenteranno la ricerca per gli anni a venire“.