PublicWWW, motore di ricerca avanzato per il codice sorgente dei siti. Come funziona

Presentiamo un motore specializzato nella ricerca di stringhe all'interno del codice sorgente dei siti Web. Cos'è e come funziona PublicWWW.

I motori di ricerca tradizionali come Google Search concentrano la loro attenzione sull’indicizzazione del contenuto visibile delle pagine Web. Utilizzando appositi operatori è in alcuni casi possibile estrarre informazioni non immediatamente visibili. C’è tuttavia un motore di ricerca creato apposta per focalizzarsi, invece, sul codice sorgente.

Si chiama PublicWWW e risulta particolarmente utile per sviluppatori, marketer, SEO specialist e ricercatori di sicurezza che hanno bisogno di cercare specifici frammenti di codice, testi o tecnologie utilizzate nei siti Web.

Gli utenti del motore di ricerca PublicWWW possono così trovare siti Web e singole pagine che utilizzano specifiche tecnologie, plugin, parole chiave, script o qualsiasi altra stringa di codice.

Motore di ricerca per il codice sorgente: cos’è e come funziona PublicWWW

PublicWWW utilizza crawler per scansionare e indicizzare miliardi di pagine. Durante questo processo, il codice sorgente è automaticamente scaricato e archiviato. L’indice è ottimizzato per cercare stringhe di testo all’interno del sorgente.

Gli utenti possono inserire query di ricerca specifiche, che possono includere parole chiave, frammenti di codice, URL parziali, tag HTML e così via. Il sistema mette a disposizione vari filtri per affinare i risultati di ricerca. Gli utenti possono ad esempio selezionare solo i risultati relativi nomi a dominio specifici (PublicWWW supporta il classico operatore site:) o addirittura TLD (top-level domain).

Utilizzi comuni di PublicWWW

Uno strumento come PublicWWW si rivela eccellente per analizzare la concorrenza, cercando tecnologie e script utilizzati. Permette di trovare i siti che menzionano o linkano a un particolare contenuto o dominio.

Gli sviluppatori possono effettuare ricerche mirate per trovare esempi di codice e capire come specifici framework o librerie sono utilizzati nei vari siti Web. Si possono anche cercare tutti i siti che utilizzano una particolare versione di jQuery o di qualsiasi altra libreria.

Se un utente volesse far emergere tutti i siti che utilizzano un determinato plugin di WordPress, può cercare il nome del plugin o una parte del suo codice distintivo. PublicWWW restituisce una lista di tutti i siti che contengono quel frammento di codice nel loro sorgente, permettendo all’utente di analizzare e interagire con quei siti in modo mirato.

PublicWWW aiuta a identificare vulnerabilità, cercando i siti che utilizzano versioni obsolete e vulnerabili di software e script.

Gli esperti nell’ambito della sicurezza informatica sono anche in grado di rendersi conto, molto semplicemente, di quali pagine sono state aggredite da particolari malware o in seguito a un attacco mirato.

Esempi pratici di possibili utilizzi

In ambito SEO e marketing, PublicWWW facilita la ricerca dei backlink competitivi. Con una query come href="https://nomedelsitoconcorrenza.xyz", si ottengono i siti Web contenenti link verso il nome di dominio specificato.

Cercando la cartella di un plugin specifico, si possono individuare i siti che utilizzano quel plugin, permettendo di capire quali strumenti sfruttano i concorrenti. Esempio: wp-content/plugins/nome-del-plugin.

Con PublicWWW si possono cercare i siti che contengono una specifica funzione personalizzata, utile per svolgere attività di debugging oppure per verificare l’adozione di specifiche soluzioni. Esempio: function myCustomFunction().

Ancora, come accennavamo in precedenza, un’interrogazione come src="jquery-1.12.0.min.js" aiuta a identificare l’elenco dei siti che ancora si servono di una versione specifica e potenzialmente vulnerabile di jQuery. Ovviamente, lo stesso approccio può essere esteso a qualunque tipo di componente.

Lo studio della funzione eval() JavaScript consente di avere un riscontro diretto su tutti quei che potrebbero soffrire di vulnerabilità di sicurezza legate a tale funzione.

PublicWWW si rivela uno strumento prezioso per capire a chi è intestato un sito Web e stabilire quali altre proprietà sono gestite online. Si può ad esempio cercare l’identificativo di Google Analytics (G- oppure AW-) o un numero di account AdSense per stabilire tutte le pagine ascrivibili a uno stesso soggetto.

Altri spunti sono pubblicati nella home page di PublicWWW.

La sintassi per sviluppare ricerche avanzate

Come accennato in precedenza è possibile digitare tra doppie virgolette il codice che si desidera cercare nel sorgente delle pagine Web pubblicamente visibili e raggiungibili dai crawler/bot.

La pagina Query Syntax propone diverse funzionalità avanzate che possono rivelarsi molto utili. L’operatore site:, già citato in precedenza, consente ad esempio di limitare le ricerche ai siti Web legati a uno specifico TLD. Ad esempio, aggiungendo site:it, si effettua una ricerca solamente sui siti italiani (gTLD .it).

Abbinando anche depth:all, si può estendere la ricerca a tutte le pagine di ciascun nome a dominio che sono attualmente note a PublicWWW.

L’operatore filetype: è invece utile per cercare la stringa specificata solo all’interno di specifici file. È molto utile, ad esempio, per focalizzarsi su file .js o .css.

Il supporto delle regular expression consente ai tecnici di elaborare ricerche ancora più articolate e strutturate in modo da prendere in considerazione le diverse varianti di una stessa ricerca.

Conclusioni

In conclusione, PublicWWW si rivela uno strumento incredibilmente versatile e potente per chiunque abbia bisogno di esplorare e analizzare il codice sorgente dei siti Web. Grazie alla sua capacità di cercare frammenti di codice HTML, JavaScript, CSS e altro, offre innumerevoli applicazioni pratiche che spaziano dal marketing digitale alla sicurezza informatica, passando per lo sviluppo software e la ricerca accademica.

Per i professionisti del marketing e della SEO, PublicWWW permette di ottenere preziose informazioni sui backlink dei concorrenti, analizzare le tecnologie utilizzate dai siti rivali e individuare nuove opportunità. Gli sviluppatori possono trarre vantaggio dalle sue capacità di ricerca per trovare esempi di codice, verificare l’implementazione di specifiche tecnologie e ottimizzare i loro processi di debugging.

Gli esperti di sicurezza informatica possono utilizzare PublicWWW per identificare siti web vulnerabili e potenzialmente esposti a rischi, mentre i ricercatori possono raccogliere dati su larga scala per analisi statistiche e studi accademici. Anche nel campo della business intelligence, PublicWWW offre strumenti per monitorare la conformità dei siti web aziendali e verificare la presenza di codici di tracciamento essenziali.

Ti consigliamo anche

Link copiato negli appunti