Per indicizzazione si intende l’insieme di azioni volte a far sì che i crawler possano leggere correttamente e inserirlo nel proprio database.

E’ il processo tramite il quale i MdR inseriscono le pagine nel loro database. Dopo averle indicizzate, i MdR poi le valutano per proporle come risultato quando un utente effettua una ricerca.

Quindi è bene far subito una distinzione: l’indicizzazione si riferisce al semplice fatto che il MdR (come Google, Bing, Yandex, Yahoo ecc) inserisce le pagine web nel database.

L’attività con cui tali pagine web vengono portate in prima pagina per le parole chiave desiderate, si chiama invece posizionamento.

Come Funzionano i Motori di Ricerca: Scansione, Indicizzazione, Posizionamento

Iniziamo con lo spiegare come funzionano i MdR . Questo discorso è valido anche per spiegare come funziona.

I MdR esistono per scoprire, comprendere e proporre i contenuti migliori che trovano sul web, per le varie ricerche che gli utenti compiono.

Per apparire nei risultati di ricerca, il tuo contenuto deve essere prima di tutto visibile e scansionabile: se non può essere trovato, non c’è modo di essere presente nelle SERP (Search Engine Results Page, cioè le pagine dei risultati).

Lavorano in 3 fasi principali:

  • Scansione o crawling: perlustrano internet alla ricerca di contenuti e pagine web;
  • Indicizzazione: memorizzano il contenuto trovato durante il processo di scansione. Una volta che una pagina è nell’indice;
  • Posizionamento o ranking: scelgono dal loro database le pagine web migliori per le varie keyword e le posizionano, dando loro visibilità e traffico.

Mi presento: sono Filippo Jatta, sono consulente dal 2007.

Mi sono laureato e specializzato nel 2007 in Economia, Organizzazione e Sistemi Informativi presso l’Università Bocconi di Milano.

Fase di Scansione o Crawling

Il crawling, o scansione, è il processo di scoperta in cui i MdR inviano i loro crawler per trovare contenuti nuovi e rileggere le pagine già scansionate.

I crawler, come Googlebot e Bingbot, seguono i link presenti nel web per trovare i nuovi contenuti da leggere.

Passando da uno all’altro, i crawler trovano nuovi contenuti e li leggono.

E’ possibile bloccare la scansione delle pagine web con il disavow, un comando da inserire nel file robots.txt  (nota: i contenuti bloccati alla scansione possono talvolta comunque essere messi nell’indice).

Fa Scansionare Correttamente con il File Robots.txt

Per aiutare i crawler nella fase di scansione, puoi sfruttare il file robots.txt e i suoi comandi di allow e disavow.

Tramite la direttiva allow, lascerai che i crawler leggano le risorse desiderate; con il comando disavow, invece, ne bloccherai la scansione.

Se i crawler non riescono a trovare un file robots.txt, procedono alla scansione, mentre se trovano un file robots.txt, si atterranno alle direttive di scansione.

Ottimizzare per il budget di scansione!

Il crawl budget è la quantità di tempo e risorse che i MdR mettono a disposizione di ciascunper la scansione.

Se hai contenuti che non vuoi far indicizzare, salva crawl budget bloccando la scansione tramite la direttiva disavow del file robots.txt.

L’ottimizzazione del budget di scansione assicura che Googlebot e gli altri spider (o crawler) non sprechino tempo e risorse a scansionare pagine che non ti interessano (ad esempio le URL con parametri che vengono creati con i filtri degli e-commerce).

In tal modo non correrai il rischio che il crawl budget non risulti insufficiente per scansionare le pagine di valore.

Il problema del crawl budget è rilevante per quelli molto grandi, mentre se hai un sito di medie o piccole dimensioni è meno importante, in quanto Google avrà comunque risorse sufficienti per scansionare tutto (a meno che non ci siano disastri tecnici, come centinaia di migliaia di pagine generate automaticamente da qualche funzione del CMS).

Fase di Indicizzazione sui Motori di Ricerca

I MdR leggono i contenuti e li memorizzano nel loro indice, o database.

Non indicizzano tutti i contenuti: alcuni contenuti  perché non sono riusciti a trovarli, mentre altri per problemi tecnici (un uso errato della direttiva noindex all’interno delle pagine) o per problemi di qualità (thin content, cioè contenuti inutili di scarsa qualità).

Si può bloccare il processo tramite il tag noindex all’interno del codice HTML.

Qui trovi la guida riguardante Google e sull’indicizzazione SEO.

Se hai già un, potrebbe essere una buona idea iniziare a vedere quante delle tue pagine siano nell’indice.

In questo modo otterrai ottime informazioni sul fatto che i MdR stiano eseguendo il crawling e la scansione delle pagine.

Un modo per fare un controllo è “site:nomesito.com”, un operatore di ricerca avanzata.

Digita “site:nomesito.com” nella barra di ricerca.

Il numero di risultati che visualizza non è esatto, ma ti dà una idea concreta di quali pagine sono indicizzate.

Per ottenere risultati più accurati, utilizza il rapporto di copertura dell’indice nella Search Console.

Se non sei presente da nessuna parte nei risultati di ricerca, ci sono alcune possibili ragioni:

  • Il tuo è nuovo di zecca e non è ancora stato scansionato;
  • Le pagine sono orfane, cioè non ricevono nessuno né internamente, né esternamente, né dalla sitemap XML;
  • Stai facendo un uso errato del tag noindex:
  • La navigazione è difficoltosa per i crawler;
  • Il tuo è stato penalizzato per spam o contenuti di scarsa qualità.

Più nello specifico, per la prima tipologia di problema è sufficiente attendere un po’, e magari segnalare in Search Console e integrandovi la sitemap XML.

Per il secondo tipo, basta crearne verso la pagina da far indicizzare; per il terzo tipo basta rimuovere i tag noindex.

Per il quarto e quinto tipo, invece, la risoluzione è più complessa e va affidata a un consulente specialist esperto.

Fase di Posizionamento sui Motori di Ricerca

Ok, risolti questi eventuali problemi, a questo punto i contenuti sono stati inseriti nel database, è avvenuta la registrazione, e sei pronto per fare promozione.

Quando un utente effettua una ricerca, i MdR mostrano le pagine web all’interno dell’indice come risultati della ricerca nelle SERP, ordinandoli per rilevanza e capacità di soddisfare l’intento di ricerca.

Questo ordinamento dei risultati di ricerca per rilevanza è noto come posizionamento o ranking.

Come Migliorare l’Indicizzazione del sui Motori di Ricerca

A volte sarà in grado di trovare parti eseguendo la scansione, ma altre pagine o sezioni potrebbero essere oscurate per qualche motivo.

È importante assicurarsi che i MdR siano in grado di scoprire tutti i contenuti che si desidera indicizzare, e non solo la propria homepage.

Ecco alcune problematiche comuni che impediscono una corretta scansione, e le rispettive soluzioni.

Metti in Disallow le Pagine con Contenuto Protetto

Se richiedi agli utenti di effettuare il login, compilare moduli o rispondere a sondaggi prima di accedere a determinati contenuti, i MdR non vedranno quelle pagine protette.

Rendine quindi il contenuto immediatamente disponibile nella pagina.

Agevola la Navigazione Ottimizzata per il Crawler

Proprio come un crawler ha bisogno di scoprire da altri, ha bisogno di un percorso, per essere guidato in maniera ordinata da pagina a pagina. E’ per questo che è fondamentale l’ottimizzazione.

Molti fanno l’errore critico di strutturare la loro navigazione in modi che sono inaccessibili o difficoltosi per i MdR , ostacolando la loro capacità di scansione.

Ad esempio, due errori della struttura di navigazione sono:

  • Qualsiasi tipo di navigazione in cui le voci di menu non sono in HTML, come le navigazioni abilitate a JavaScript. Google ha ottenuto risultati migliori nel crawling e nella comprensione di Javascript, ma non è ancora un processo perfetto. Il modo più sicuro per assicurarsi che qualcosa venga trovato e compreso è usare il linguaggio HTML;
  • Personalizzazione continua, in base alle caratteristiche dello specifico utente, di menu e link di navigazione interni.

Sitemap XML

Una sitemap XML è un elenco di URL  che i crawler possono utilizzare per scoprire le pagine.

Uno dei modi più semplici per garantire che Google trovi le pagine con la massima facilità è creare un file che soddisfi gli standard e collegarlo con la Search Console.

Anche se l’invio di una mappa non sostituisce la necessità di una buona navigazione, aiuta certamente i crawler a trovare le pagine desiderate.

Non includere nella sitemap XML URL che non vuoi far indicizzare, come le pagine duplicate, le pagine parametrizzate, quelle in noindex, quelle bloccate alla scansione e così via.

Evita gli Errori del Server

Durante il processo di scansione delle URL di un sito internet, i crawler dei MdR può incorrere in errori.

Puoi andare al rapporto “Errori di scansione” di Search Console per rilevare le URL che danno problemi.

Ecco i principali problemi cui si può incorrere.

Evita i Codici 4xx

I codici 4xx, ad esempio i famosi 404, vengono mostrati quando i crawler dei MdR non possono accedere al contenuto a causa di un errore del client.

4xx errori sono errori del client, nel senso che l’URL richiesta contiene una cattiva sintassi o non viene trovata online.

Uno degli errori 4xx più comuni è l’errore “404 – non trovato”. Questi potrebbero verificarsi a causa di un errore di battitura dell’URL, pagina cancellate, reindirizzamenti interrotti, o interni rotti, solo per citare alcuni esempi.

Sta Attento ai Codici 5xx

Quando i crawler dei MdR non possono accedere ai contenuti a causa di un errore del server viene mostrato un errore 5xx.

Gli errori 5xx sono errori del server, il che significa che il server su cui si trova la pagina web non è riuscito a soddisfare la richiesta di accesso alla pagina.

Nel rapporto “Crawl Error” della Search Console, c’è una scheda dedicata a questi errori.

Questi tipicamente accadono perché la richiesta dell’URL è scaduta, quindi il crawler ha abbandonato la richiesta.

Elimina le Catene di Reindirizzamento

Può essere difficile per Googlebot, Bingbot e gli altri crawler, raggiungere la tua pagina se deve passare attraverso più reindirizzamenti.

I reindirizzamenti multipli, o “catene di reindirizzamento”, sono da evitare. Fanno fare un lavoro inutile ai crawler, e possono mettere a repentaglio il corretto processo.

Gestisci Bene il Nofollow

Se una URL riceve solo nofollow, sia internamente dallo stesso che esternamente da altri, i MdR potrebbero seguire l’indicazione e non serguirli.

Se quindi la URL non compare neanche nella itemap XML e non viene segnalata manualmente, potrebbe non essere trovata.

I MdR Possono Rimuovere le Pagine dall’Indice

Sì, le pagine possono essere rimosse dagli indici dei MdR. Anche se alcuni contenuti sono state scansionati e sono addirittura primi sui motori di ricerca, possono sempre essere successivamente deindicizzati.

Alcune delle ragioni principali per cui un URL può essere rimosso sono:

  • L’URL restituisce un errore “non trovato” (4XX) o un errore del server (5XX) per molto tempo. Questo potrebbe essere accidentale (la pagina è stata spostata e non è stato impostato un redirect 301) o intenzionale (la pagina è stata cancellata ma non rimossa dall’indice);
  • L’URL ha un meta tag noindex: questo tag può essere aggiunto dai proprietari per indicare di omettere la pagina dal suo indice; la pagina continuerà a essere scansionata, ma non sarà più indicizzata;
  • L’URL è stato manualmente o algoritmicamente penalizzata per aver violato le linee guida dei MdR e, di conseguenza, è stata rimossa dagli indici;
  • L’URL è stata bloccata alla scansione con un disallow nel file robot.txt. Come detto, in realtà questa direttiva blocca la scansione ma non l’indicizzazione.

Se ritieni che una pagina che in precedenza era nell’indice non viene più visualizzata, puoi utilizzare lo strumento di ispezione delle URL in Search console per conoscere lo stato della pagina, e poi richiedere una nuova indicizzazione.

Filippo Jatta

About Filippo Jatta

Filippo Jatta è consulente SEO dal 2008. Dottore magistrale in Organizzazione e Sistemi Informativi presso l'Università Luigi Bocconi di Milano.