Come Funziona la Ricerca su Google: Guida a Scansione, Indicizzazione e Posizionamento

In questo articolo ti mostro, in maniera semplice e chiara, come funziona la ricerca su Google.

La prima cosa che dovresti chiederti non è come far arrivare un sito in prima posizione, ma come “ragiona” Google perché questo accada, cioè il processo che precede la query fino a ottenere i risultati di una ricerca.

Per generare una SERP, cioè un risultato di ricerca, il motore di ricerca esegue questi passaggi:

la scansione del documento;
l’indicizzazione sui MDR dello stesso;
la decisione del ranking.

Vediamo queste fasi una per una.

Indice

Come Funziona il Motore di Ricerca Google: la Scansione
- 1. Scoperta
- 2. Scansione vera e propria
Come Funziona l’Algoritmo di Ricerca di Google: l’Indicizzazione
Come Funziona Google nella Fase di Ranking

Come Funziona il Motore di Ricerca Google: la Scansione

Il processo di scansione prevede l’utilizzo da parte del motore di ricerca di software automatici, detti web crawler o spider, che ricercano costantemente pagine web da indicizzare e poi far comparire nei risultati di ricerca.

Il bot utilizzato da Google è il GoogleBot.

Come fa il GoogleBot a trovare le pagine da scansionare?

Il funzionamento di questo crawler non è particolarmente difficile, ma occorre sapere che ogni qualvolta che esso procede alla scansione della pagina, esistono due fasi importanti.

1. Scoperta

Prima di tutto viene eseguita una verifica di un documento, chiamato con l’acronimo DOM (Document Object Model) allo scopo di avere informazioni più precise e dettagliate sia sulla struttura che sulla possibilità di individuare link verso nuove pagine. Le URL di queste eventuali pagine saranno poi inserite in coda al fine di essere scansionate successivamente.

2. Scansione vera e propria

Essa avviene successivamente alla prima fase perché è molto più comodo per Google suddividere il suo lavoro in diverse fasi e modalità: sarebbe un dispendio di tempo eccessivo doversi occupare dell’intero web e di tutte le pagine che si trovano in rete; inoltre, per essere ancora più agevolato, Google può anche escludere delle pagine dai suoi interessi per i più svariati motivi (per esempio, oggetto di questa esclusione possono essere le direttive Disallow, i file Robots.txt e i filtri antispam).

Per comodità, quindi, possiamo dire che:

Alcune pagine web sono già note perché già in precedenza sottoposte a scansione;
altre vengono scoperte successivamente, ovvero quando un link presente in una pagina nota rimanda ad essa;
altre ancora entrano a far parte del data center quando il proprietario invia una sitemap (che è un elenco di URL), affinchè ne venga eseguita la scansione;
in alternativa, è possibile richiedere la scansione delle URL tramite Search Console.

Nella fase di scansione avvengono le seguenti operazioni:

vengono estratti i collegamenti presenti nella pagina;
avviene il rendering dei contenuti;
vengono analizzati i contenuti stessi.

Come Funziona l’Algoritmo di Ricerca di Google: l’Indicizzazione

Il secondo passaggio del processo, abbiamo detto, si chiama indicizzazione.

Questo processo è l’insieme delle modalità con le quali Google include le pagine web all’interno dei suoi indici: si tratta di archivi di dati in cui si trovano le informazioni sulle pagine scansionate da GoogleBot, dati e dettagli che si rivelano utili quando un utente effettua una ricerca ed il motore di ricerca deve restituire risultati coerenti e pertinenti.

Pertanto, in questa seconda fase i contenuti vengono associati alla pagina che li presenta. Bisogna sottolineare, prima di spiegare come avviene l’indicizzazione, che per Google il testo è molto importante ai fini del ranking: non a caso è stato di recente ammesso che i contenuti rappresentano uno dei tre primi fattori di posizionamento insieme ai backlink.

Questo è il motivo per cui è così importante per il motore di ricerca capire di cosa si sta parlando e cosa è contenuto nella pagina di cui esso effettua la scansione.

La creazione dell’indice avviene attraverso tre passaggi importanti, l’ultimo dei quali è, appunto, l’indicizzazione. Per arrivare ad esso vi sono:

Crawling: è l’uso di software (i crawl o spider) o, meglio ancora, di bot che servono per acquisire il contenuto di una pagina e memorizzarlo allo scopo di creare l’indice;
Parsing: in questa fase si analizza il contenuto e si eseguono dei cambiamenti nel testo, che possono comprendere l’eliminazione di stop words (stopping) e il raggruppamento di parole che presentano una radice comune (stemming).
Indicizzazione: il MDR analizza i contenuti di una pagina e li include all’interno del suo database.

Questa è una fase molto importante e delicata, perché possono verificarsi delle esclusioni di alcuni contenuti all’interno del database: escludere alcuni di essi significa non indicizzarli, e questo può avvenire perché, ad esempio, non considera importanti o degni di interesse questi contenuti.

Può decidere di non includere determinati contenuti all’interno del database, e quindi non indicizzarli, se non li ritiene meritevoli. I due motivi principali per cui può scegliere di non includere dei contenuti nella sua indicizzazione sono appartenenti ad elementi di tipo:

tecnico: se per esempio all’interno della pagina c’è la direttiva noindex;
qualitativo: se ritiene il contenuto non sufficientemente interessante. Tale decisione può esser presa sia da algoritmi che operano come filtri (come Panda) che manualmente, con penalizzazioni manuali.

Mi presento: sono Filippo Jatta, sono consulente dal 2007.

Mi sono laureato e specializzato nel 2007 in Economia, Organizzazione e Sistemi Informativi presso l’Università Bocconi di Milano.

Più in generale, esso non indicizza tutto ciò che non riesce a rilevare, ed in particolare tutte quelle pagine che contengono esclusivamente elementi audio e video: se non corredati da una descrizione puntuale ed efficace, non permettono al bot di comprendere di cosa si tratta.

Conoscere le preferenze del motore di ricerca è già un primo passo per un buon lavoro di ottimizzazione: infatti, il GoogleBot legge i testi in maniera molto differente rispetto a come la lettura viene eseguita da un essere umano, attraverso la presenza di codici ed informazioni tecniche che sfuggono all’occhio umano, ma che sono invece una chiave fondamentale per la comprensione del testo da parte dei motori.

Come Funziona Google nella Fase di Ranking

Fino ad ora ha trovato e letto i contenuti, e li ha inseriti nel suo database.

Ma come viene gestita la fase di creazione delle SERP?

La classificazione delle pagine e la decisione su quali di esse debbano essere prelevate al fine di mostrarle all’utente in seguito alla sua ricerca (perché appunto considerate meritevoli) avviene per mezzo di una serie di algoritmi che consentono di fornire all’utente la risposta più meritevole tra tutte quelle presenti.

I fattori che vengono presi in considerazione per la decisione dell’ordine per mezzo del quale vengono presentati i risultati sono oltre 200.

Anche questa è una fase molto delicata. Infatti, devono essere eseguiti in questa occasione dei passaggi critici, e più in particolare:

deve avvenire l’interpretazione del Search Intent (l’intento di ricerca) dell’utente;
deve avvenire l’identificazione e quindi la comprensione delle pagine relative alla query ll’interno dell’indice;
devono essere classificate le pagine secondo due fattori fondamentali che devono essere rispettati: la rilevanza e l’importanza.

La rilevanza è il livello di corrispondenza della pagina all’intenzione di ricerca dell’utente: essa misura quanto quel contenuto sia coerente con le aspettative di ricerca e di conseguenza anche quanto possa essere in grado di rispondere alle sue esigenze.

In sostanza, il posizionamento avviene anche grazie alla presenza di alcuni elementi fondamentali, come ad esempio:

Meta Tags

Le informazioni importanti in questo caso sono il Tag Title e la Meta Description che si trovano nel codice HTML: tuttavia, mentre il primo è un fattore fondamentale per il posizionamento, il secondo è sicuramente un elemento che si consiglia di ottimizzare, ma non è ritenuto altrettanto importante. In ogni caso, una buona ottimizzazione di entrambi permette di fornire informazioni molto utili, che permetteranno anche eventualmente la creazione degli snippet dei risultati di ricerca.

Alt Tag delle immagini

Si tratta di attributi che vengono associate alle immagini, e che servono al motore di ricerca per capire a cosa è riferita l’immagine che abbiamo inserito all’interno del testo. Infatti, mentre l’occhio umano può facilmente comprendere se essa è coerente con l’argomento trattato, per Google questo è molto più difficile e può essere risolto solo attraverso un aiutino, che è dato proprio dalla descrizione per mezzo dell’alt tag. Non solo: anche l’utente non vedente può essere agevolato in questo.

Dati Strutturati Schema.org

Si tratta di informazioni precise che permettono di migliorare l’indicizzazione e La corretta classificazione dei contenuti.

L’importanza è l’autorevolezza e la popolarità che vengono assegnate ad una pagina in base alle referenze da parte degli altri siti: in questo elemento entrano in gioco, quindi, i backlink, che non sono altro che delle vere e proprie “raccomandazioni” che provengono da siti più autorevoli nel settore. Verrebbe da pensare che ciò che conta è il numero di backlink: in realtà, in questa fase non conta tanto la quantità, ma soprattutto la qualità della raccomandazione, e questo significa che maggiore è l’autorevolezza della fonte da cui proviene il link, maggiore sarà l’importanza attribuita alla pagina che viene linkata.

Funzionamento della creazione delle SERP dei Motori di Ricerca su Internet

Come fa Google a decidere come posizionare i vari risultati di ricerca?

Per fornire le SERP procede in questo modo:

assegna un punteggio ai contenuti indicizzati presenti sul web;
applica eventuali penalizzazioni manuali;
applica eventuali test per lo studio dei comportamenti;
elabora sitelinks, snippet e tutti gli altri elementi presenti in SERP.

Il punteggio assegnato ai vari contenuti è fondamentale.

Esso dipende da 2 macro elementi:

rilevanza relativa alla query, cioè alla parola chiave cercata dall’utente, ovvero capacità di soddisfare l’intento di ricerca;
page rank, fattore che considera la popolarità del contenuto, che è un fattore parzialmente indipendente dalla query.

Si procede così alla creazione delle SERP, cioè dei risultati di ricerca che vedi apparire.