Sta facendo tanto discutere il contenuto dei 2.500 documenti rubati a Google e sbattuti ai quattro venti, online. Se finora l’azienda aveva preferito rimanere in silenzio, i portavoce di Google adesso confermano pubblicamente che i dati apparsi online sono reali e provengono davvero dai sistemi dell’azienda. Analisi dettagliate delle informazioni trapelate in rete hanno permesso di dare un primo sguardo ai segreti SEO dell’azienda di Mountain View.
Tanti meccanismi che regolano il funzionamento dei prodotti Google, infatti, sono mantenuti strettamente segreti. Danny Sullivan (Public Liaison for Search Google) ha recentemente sbattuto i pugni sul tavolo affermando a chiare lettere che la SEO, quella buona, esiste sempre e che anzi Google esorta webmaster ed editori a utilizzare le pratiche più sane per dare maggiore visibilità ai loro prodotti. Non per niente, Google fornisce indicazioni di carattere generale per aiutare a posizionare i siti Web nei risultati delle ricerche (SERP). Si tratta di pagine, dice Sullivan, che sono spesso dimenticate ma che raccolgono la visione della sua azienda e i comportamenti virtuosi da applicare ogni giorno.
Google: attenzione a non trarre conclusioni affrettate dai documenti apparsi online
I 2.500 documenti apparsi online offrono tuttavia una panoramica senza precedenti sul funzionamento “sotto il cofano” degli algoritmi utilizzati da Google Search. Attraverso le parole di Davis Thompson, Google esorta comunque tutti a non pare ipotesi imprecise basandosi su “informazioni fuori contesto, obsolete o incomplete“. Il senso, insomma, è di non dare troppo peso alla raccolta di dati che ha fatto capolino online, perché si potrebbero trarre conclusioni affrettate, che non corrispondono al vero e non riflettono la realtà delle cose.
Non è dato sapere se sia il tentativo di ridimensionare l’accaduto e, implicitamente, negare la veridicità di alcune conclusioni alle quali alcuni analisti SEO, primi tra tutti Rand Fishkin e Mike King, sono nel frattempo pervenuti.
La fuga di dati sta creando un terremoto in tutto il settore SEO
Indipendentemente dalle dichiarazioni di Google, quanto avvenuto messo in movimento tanti esperti SEO che in queste ore hanno messo al vaglio ogni dettaglio presente nei documenti Google. Il materiale trapelato suggerisce che l’azienda fondata da Larry Page e Sergey Brin raccoglie e potenzialmente utilizza dati che secondo i rappresentanti dell’azienda non contribuiscono al posizionamento delle pagine Web nella Ricerca Google, come clic, dati utente di Chrome e altro.
Il funzionamento dell’algoritmo di ranking Google, ovvero del meccanismo utilizzato per decidere quali pagine devono essere mostrate per prime in seguito a ogni singola query di ricerca dell’utente è da tempo un po’ come la ricetta della Coca Cola. In altre parole, si conoscono principi generali ma l’esatto funzionamento del ranking è custodito gelosamente da Google.
Esaminando la documentazione venuta a galla in queste ore, si apprende che Google potrebbe usare oltre 2.500 moduli con più di 14.000 attributi per determinare il ranking dei contenuti. Sebbene non sia specificato il peso di ciascuna caratteristica, il leak fornisce informazioni preziose su alcuni fattori chiave.
L’importanza dei link
I link rimangono un fattore cruciale per il ranking nelle SERP di Google. La diversità e la rilevanza dei link sono fondamentali, e lo storico algoritmo di PageRank – portato al debutto proprio da Page e Brin agli albori del motore di ricerca – resta determinante per il posizionamento di ogni singola pagina. Questo conferma l’importanza dei link, nonostante Google abbia in passato minimizzato il loro peso complessivo.
Le differenze tra clic
Sempre stando a quanto emerso dai documenti venuti a galla in questi giorni, Google utilizza diverse metriche, come badClicks, goodClicks, lastLongestClicks e unsquashedClicks. Significa che l’azienda di Mountain View classifica i clic degli utenti per valutare la loro esperienza sulle pagine Web. I primi sono quelli che, probabilmente, hanno portato a un’esperienza negativa per l’utente, come un rimbalzo rapido dal sito o un’insoddisfazione generale. I goodClicks al contrario, sarebbero i clic che hanno generato un’esperienza positiva per l’utente: questi ha trascorso più tempo sul sito o ha interagito con il contenuto.
lastLongestClicks potrebbe rappresentare i clic che hanno portato a visite di lunga durata, indicando un maggiore coinvolgimento dell’utente. Allo stato attuale, invece, unsquashedClicks è un termine meno chiaro, ma potrebbe riferirsi a clic distinti conteggiati singolarmente.
Lunghezza dei testi
Parlando di lunghezza dei testi che compongono le pagine, sembra che Google potrebbe troncare i contenuti più lunghi. Nel caso invece dei testi un po’ più brevi, assegnerebbe un punteggio da 0 a 512 basato sulla loro effettiva originalità.
Autorità del brand, entità e autori
Una delle informazioni più evidenti che ricorre nella documentazione Google è l’importanza del marchio. Costruire un brand riconosciuto e popolare in un settore è la chiave per avere successo su Google Search.
Google, inoltre, memorizza le informazioni sugli autori associati ai contenuti, ne valuta costantemente l’autorevolezza e cerca di determinare se l’entità dichiarata è davvero l’autore di un documento specifico.
Il leak, inoltre, conferma quanto emerso con la pubblicazione degli ultimi Core Update di Google: anche i contenuti di bassa qualità concentrati in una parte di un sito possono influire sul posizionamento del sito nel suo insieme. In altre parole, il posizionamento di contenuti qualitativamente validi può risentire della presenza di testi di bassa o mediocre qualità.
Gli altri aspetti importanti
Diversamente da quanto dichiarato in passato, seppur sia un aspetto da prendere con il beneficio di inventario, i documenti apparsi online sembrano indicare che Google utilizzi i dati provenienti dalle installazioni di Chrome come fattore di ranking. Probabilmente registrando il comportamento e il coinvolgimento dei lettori proprio a livello di browser Web.
Secondo i documenti interni, Google considera tanto la freschezza dei contenuti, le informazioni di registrazione dei domini, la corrispondenza tra titoli delle pagine e query di ricerca, le dimensioni medie dei font utilizzati nei documenti.
Vettorizzazione ed embedding per verificare quanto un sito è autorevole nel suo campo
Per determinare se una pagina è o meno argomento centrale del sito Web, Google vettorizza pagine e siti, quindi confronta gli embedding della pagina con quelli del sito. La vettorizzazione, concetto ampiamente conosciuto nel segmento dell’intelligenza artificiale, è il processo di conversione di parole o documenti in vettori numerici. Questi vettori rappresentano le caratteristiche delle parole o dei documenti in uno spazio multidimensionale, dove la distanza e la direzione tra i vettori generalmente riflette somiglianze e relazioni tra i contenuti.
Gli embedding sono una rappresentazione numerica densa di dati, come parole o documenti, in uno spazio a più dimensioni. Catturano le caratteristiche semantiche del testo, permettendo di confrontare e misurare le somiglianze tra diversi elementi.
Google utilizza concetti come siteRadius, probabilmente per rappresentare l’estensione o la variabilità del contenuto di una pagina rispetto agli argomenti trattati nel sito. L’embedding del sito, invece, chiamato siteFocusScore, è un vettore che rappresenta il contenuto complessivo dell’intero sito Web. In questo modo, Google può sempre stabilire il focus principale e i temi centrali di ciascun sito Web nel suo insieme.
Il “no comment” di Google
Puntando i piedi e precisando quanto anticipato nell’introduzione, i responsabili di Google hanno precisato che l’azienda non commenterà i dettagli specifici sui singoli elementi di ranking emersi dall’analisi dei documenti. Non fornirà insomma alcun indizio sul fatto che siano accurati, obsoleti, attualmente in uso e quale sia il loro eventuale peso specifico. Secondo Google, fornire queste informazioni permetterebbe a spammer e malintenzionati di sfruttarle per manipolare i risultati di ricerca.
Google sostiene inoltre di essersi sempre impegnata a fornire informazioni accurate, senza però volutamente scendere nei dettagli segnale per segnale.