Il motore di ricerca di Google cambia pelle ed introduce alcune modifiche agli algoritmi di indicizzazione impiegati sino ad oggi. Si tratta probabilmente della più importante revisione mai effettuata sul “cuore pulsante” del “search engine“. Il nuovo sistema di indicizzazione delle pagine web era già noto con il nome di “Caffeine” ed era in fase di testing da circa un anno. Con l’esplosione della bolla dei “social network”, i tecnici di Google hanno deciso di intervenire sul funzionamento del motore di ricerca non solo per proporre, tra le pagine offerte in risposta alle interrogazioni degli utenti, risultati provenienti da tali siti web ma anche per mettere informazioni sempre più aggiornate.
Secondo Carrie Grimes, ingegnere software di Google, “Caffeine” sarebbe capace di restituire molte più informazioni relative a pagine web aggiornate o create di recente rispetto a quanto accadeva nella precedente versione del motore di ricerca. “Sia che si tratti di materiale pubblicato su un blog o di discussioni avviate in un forum, Google sarà in grado di presentarle, a partire dall’istante in cui tali informazioni vengono messe online, molto prima di quanto accadeva in precedenza“.
Quando si effettua una ricerca con Google, com’è ovvio, non si ha una visione “in diretta” del web: le interrogazioni vengono lanciate attingendo ai dati conservati in un indice composto ed aggiornato in modo del tutto automatico. La riduzione del tempo che trascorre tra la pubblicazione di un contenuto e l’inserimento nell’indice di Google è divenuto un aspetto preponderante.
Grimes spiega che la precedente tecnica di indicizzazione si basava su una sorta di struttura a livelli. Le pagine appartenenti a determinati livelli venivano recuperate con maggior frequenza rispetto ad altre. “Per aggiornare il contenuto di un singolo livello“, spiega Grimes, “dovevamo scandagliare l’intero web. Ciò implicava un ritardo significativo tra il momento dell’individuazione di una pagina web e la visualizzazione della stessa tra i risultati delle ricerche“. Nel caso di “Caffeine“, Google esamina il web in piccole porzioni aggiornando l’indice in maniera continuativa. “Non appena viene scoperta una nuova pagina web, questa può essere immediatamente aggiunta all’indice“, ha spiegato l’ingegnere del colosso guidato da Eric Schmidt.
“Caffeine” è in grado di elaborare simultaneamente centinaia di migliaia di pagine al secondo e gestisce “un database pesante circa 100 milioni di gigabyte aggiungendovi nuove informazioni al ritmo di migliaia di gigabyte al giorno“.