Il file robots.txt è un file di testo che indica ai motori di ricerca quali sono le sezioni e i contenuti di un sito web che è possibile scansionare e indicizzare. Contiene regole, permessi e divieti per i crawler.
Molto spesso viene trascurato, addirittura dimenticato. Invece è bene ricordare che rappresenta uno degli strumenti più importanti di cui disponiamo.
In questo articolo ti spiego cos’è e come sfruttarlo al massimo per la SEO.
Indice
- Sitemap nel robots.txt e Crawl Budget
- Allow, Disallow, Noindex nel File robots.txt
- Esempi di robots.txt
- Generator
- Come Creare un File robots.txt
- Check del File
- Le Migliori Pratiche per Google
- Da Tenere a Mente
- Come Impostare il File e Aggiungerlo
- Tester
- Google Ha Aggiornato gli Standard dei File dal 1 Settembre 2019
- Codici di Stato HTTP 404 e 410
- Protezione della Password
- Il Disallow
- Search Console Rimuove lo Strumento URL
- robots per WordPress, Joomla e Altri CMS
- Per Concludere
Sitemap nel robots.txt e Crawl Budget
Il file può essere utilizzato per espletare una serie di funzioni.
Permette di indicare ai MDR dove si trova la Sitemap XML (anche se dovresti indicarla anche in Search Console), consente di dire agli spider quali pagine occorre scansionare quali no, inoltre è anche un ottimo strumento utile per gestire il crawl budget.
Cos’è il crawl budget? E’ ciò che Google utilizza per eseguire efficacemente la scansione e l’indicizzazione delle pagine.
Vi è ancora un numero limitato di risorse disponibili per poter eseguire la scansione e l’indicizzazione del contenuto.
Se il tuo ha solo poche centinaia di URL, Google dovrebbe essere in grado di eseguire facilmente sia la scansione che l’indicizzazione delle pagine del tuo.
Però, se il tuo è grande, e quindi contiene migliaia di pagine con molte URL magari generate automaticamente, parametrizzate, e da non posizionare, può succedere che non esegua la scansione di pagine importanti e così perderai un sacco di traffico e visibilità.
In casi come questo è dunque davvero importante stabilire le priorità di cosa, quando e quanto indicizzare un sito web.
Big G. ha confermato che avere molte URL di scarso valore influisce negativamente sulla scansione e l’indicizzazione.
A tal proposito, un file robots.txt può tornarti utile proprio con quei fattori che influenzano il budget di scansione.
Se vuoi gestire al meglio il crawl budget puoi sfruttare il file.
Puoi infatti inserire il comando disallow, che impedisce agli spider che scegli di scansionare la pagina, salvando quindi risorse per quelle più importanti.
Questo ti assicurerà che si dedichino nel modo più efficiente possibile (soprattutto se hai grandi dimensioni) e che eseguano la scansione solo delle pagine più importanti, senza perder tempo con pagine come login, signup oppure thank you pages. O, ancora peggio, con migliaia di pagine parametrizzate.
NB: se una pagina è già indicizzata è inutile poi bloccarla con il disallow, in quanto continuerà a tenerla nell’indice. In tal caso inserisci un noindex nella pagina.
Mi presento: sono Filippo Jatta, sono consulente dal 2007.
Mi sono laureato e specializzato nel 2007 in Economia, Organizzazione e Sistemi Informativi presso l’Università Bocconi di Milano.
Allow, Disallow, Noindex nel File robots.txt
Sappi che prima che i bot (come ad esempio Googlebot, Bingbot e via dicendo) eseguano la scansione di una pagina web, verificheranno anzitutto una cosa, ovvero che vi sia il file.
Se così è seguiranno e rispetteranno le indicazioni contenute all’interno di quel file.
Può essere un potente strumento per controllare il modo in cui i crawler/robot accedono ad alcune aree.
E’ importante capire il modo in cui funziona il file perchè in caso contrario potresti accidentalmente incappare in qualche serio problema, come impedire a qualsiasi bot di eseguire la scansione dell’intero, impedendogli così di comparire nei risultati di ricerca!
Se usato correttamente il robots.txt ti permette di:
- Bloccare l’accesso a intere sezioni;
- Evitare che le pagine dei risultati di ricerca interne vengano scansionate, indicizzate o mostrate nei risultati di ricerca;
- Specificare la URL di una o più Sitemap;
- Ottimizzare il crawl budget bloccando l’accesso a pagine di basso valore (come login, thank you, carrelli della spesa e così via);
- Impedire che determinati file vengano indicizzati.
Esempi di robots.txt
Ecco alcuni esempi che mostrano in che modo è possibile utilizzare il file.
- Puoi consentire a tutti i crawler/robot del web l’ accesso ai contenuti:
User-agent: *
Disallow:
- E’ possibile bloccare l’accesso ai tuoi contenuti per tutti i crawler/bot del web:
User-agent:*
Disallow: /
Avrai modo di capire quanto facile sia commettere un errore quando crei i tuoi file, poiché la differenza dal bloccare la visualizzazione dell’intero sito sta una semplice barra nella direttiva disallow (Disallow: /).
- E’ possibile effettuare il Blocco di crawler/bot specifici all’interno di una data cartella:
User-agent: Googlebot
Disallow: /
- Puoi bloccare un web crawler/bot in una pagina specifica:
User-agent:
Disallow: /thankyou.html
- Puoi escludere tutti i robot dal server:
User-agent: *
Disallow: / cgi-bin /
Disallow: /tmp /
Disallow: / junk /
Ricorda che se desideri assicurarti che un bot non esegua il crawl di determinate pagine o directory, è necessario inserire queste pagine e/o directory nel disallow, come specificato negli esempi di cui sopra.
Se vuoi prendere in esame il modo in cui gestisce il file , ti basterà accedere alla sua guida specifica.
E’ importante conoscere le dimensioni dei file perchè ha un limite di dimensioni massime.
Sappi che la massima dimensione è impostata a 500 KB.
Generator
Per generare il file in realtà non ti serve nulla di particolare: si tratta di un semplice file di testo che puoi scrivere da te.
Tuttavia, puoi anche utilizzare il generator come quello che trovi qui.
Come Creare un File robots.txt
Il processo per la creazione del file sarà abbastanza semplice, tuttavia non dimenticare che il rischio di commettere un errore sarà sempre dietro l’angolo.
Non lasciare però che ciò ti scoraggi, quindi sentiti libero di dedicarti alla creazione o alla modifica di un file robot per il bene.
Vediamo allora in cosa consiste questo processo di creazione dei file e come crearlo con facilità.
Una volta che avrai preso dimestichezza con la creazione o la modifica del file , dovrai necessariamente testarlo per vedere se è stato configurato correttamente.
Puoi anche dare uno sguardo a queste linee guida sul sito ufficiale.
Check del File
Se non sei sicuro ne abbia uno, puoi eseguire un rapido controllo.
Ti basterà andare al dominio principale e quindi aggiungere /robots.txt alla fine dell’URL.
Se non visualizzi nulla vuol dire che non hai un file. Quindi sarà questo il momento giusto per provare a crearne uno.
Le Migliori Pratiche per Google
- Assicurati che tutte le pagine importanti siano fluide e scorrevoli e che i contenuti senza alcun valore reale nella ricerca vengano bloccati;
- Non bloccare i file JavaScript e CSS;
- Fai sempre un rapido controllo del tuo file per assicurarti che non vi siano state modifiche;
- Fai un uso corretto delle maiuscole per directory, subdirectory e file names;
- Posiziona il file nella directory principale;
- Il file fa distinzione tra maiuscole e minuscole, quindi ricorda che deve essere denominato tutto in minuscolo;
- Non utilizzare il file per nascondere le informazioni di un utente privato poiché queste resteranno visibili;
- Aggiungici la URL delle tue Sitemap XML all’interno;
- Assicurati di non bloccare alcun contenuto o sezione di cui vuoi far eseguire la scansione e l’indicizzazione sugli altri.
Da Tenere a Mente
Se hai un sottodominio o più sottodomini, ricorda che dovrai disporre del file per ciascun sottodominio e certamente anche per il tuo dominio principale.
Come accennato in precedenza nella “best practice section”, rammenta che non bisogna utilizzare il file per i dati sensibili, come le informazioni di utenti privati e la loro visualizzazione nei risultati di ricerca.
Questo perchè può succedere che altre pagine possano collegarsi a tali informazioni e se c’è un collegamento diretto questo ignorerà le regole e quel contenuto potrebbe essere indicizzato.
Se vuoi impedire che le tue pagine vengano realmente indicizzate nei risultati della ricerca, usa un metodo diverso come ad esempio l’aggiunta a quelle pagine di una protezione con password.
Big G. infatti non accede protetto da password, quindi non sarà in grado di eseguire la scansione della stessa.
Come Impostare il File e Aggiungerlo
In genere il file viene archiviato nella root.
Inserendo il file nella cartella principale o nella directory principale, sarai in grado di controllare la scansione di tutti le URL nel dominio https://jfactor.it.
Tester
Una volta aggiunto il tuo nuovo file o più semplicemente se hai apportato degli aggiornamenti a quello che hai già, è importante ricordarsi di testarlo.
In altre parole è importante accertarsi che funzioni perfettamente.
Sebbene ci siano molti strumenti diversi che puoi utilizzare per testarlo, il consiglio è di propendere per l’utilizzo del tester che trovi nella vecchia versione di Search Console.
Dunque, accedi alla Search Console, scorri verso il basso sino alla fine della pagina e fai clic su → Vai alla versione precedente
Quindi clicca su Scansione → Tester
Da qui in poi, potrai testare il file aggiungendo il codice del tuo file nella casella e facendo clic sul pulsante “Test”.
Se tutto procede per il meglio, il pulsante di test rosso diventerà verde (passando allo stato di “Allowed”), questo significa che il tuo nuovo file, che hai creato o modificato, adesso è valido.
Non ti resta quindi che caricarlo nella directory principale dei siti.
Google Ha Aggiornato gli Standard dei File dal 1 Settembre 2019
Ha apportato delle modifiche al modo in cui effettua la comprensione di alcune direttive.
A partire dal 1 ° settembre, dunque, ha smesso di assecondare le regole non supportate e non pubblicate nel protocollo di esclusione dei robot.
Ciò significa che non supporterà più la direttiva noindex citata nel file.
Se in passato hai utilizzato la direttiva noindex in questo modo per controllare l’indicizzazione, dal primo settembre ricorda che non sarà più possibile.
Non temere, esistono diverse opzioni alternative che puoi utilizzare, come ad esempio il noindex ed i meta tag robot; entrambi questi tag sono supportati sia nelle intestazioni di risposta HTTP che in HTML.
Ad ogni modo, è la direttiva noindex la maniera più efficace per rimuovere gli URL dall’indice, quando il crawling è consentito.
Codici di Stato HTTP 404 e 410
Ricorda: entrambi questi codici di stato indicano che la pagina non esiste e che quindi, dopo essere state sottoposte a scansione ed elaborate, verranno eliminate dall’indice tutte le URL che presentano questo codice.
Tuttavia, per la deindicizzazione serve tempo: Google, anche in presenza di errori 404 e pagine con 410, continua testardo a tentarne la scansione per diverso tempo, prima di rassegnarsi.
Protezione della Password
L’aggiunta della protezione con password è un ottimo modo per impedire di vedere e scansionare alcune pagine o tutte le pagine (se pensiamo ad una versione dev).
Nascondere una pagina dietro un codice d’accesso generalmente porterà a rimuoverla dall’indice, in quanto questo non sarà in grado di inserire le informazioni richieste per procedere e vedere cosa c’è dietro il login.
Il Disallow
I motori di ricerca possono solo indicizzare le pagine di cui sono a conoscenza (perchè possono trovarle e scansionarle), quindi bloccando la pagina o le pagine da scansionare significherà non indicizzarne il contenuto.
Ricorda però che potrebbe comunque trovare e indicizzare quelle pagine, tramite altre pagine che rimandano a esse: sitemap XML, interni e backlink.
Search Console Rimuove lo Strumento URL
Lo strumento di rimozione della Search Console offre un modo rapido e semplicissimo che ti permetterà di rimuovere temporaneamente una URL dai risultati di ricerca (temporaneamente perché questa opzione è valida solo per 90 giorni circa).
Successivamente, la tua URL potrà di nuovo apparire in SERP.
Per rendere permanente la rimozione, dovrai seguire i passaggi di cui abbiamo parlato sopra, ovvero:
- Blocca l’accesso al contenuto (con una password);
- Aggiungi un tag noindex;
- Crea un codice di stato http 404 o 410.
robots per WordPress, Joomla e Altri CMS
Esistono diverse soluzioni per creare ed editare il file se utilizzi WordPress, Joomla o altri CMS.
Ci sono plugin appositi, come lo stesso Yoast per WordPress, che possono fare al caso tuo e aiutarti nel compito.
Tuttavia, il file è davvero un semplice testo. Per tal motivo, ti sconsiglio di usare plugin che appesantirebbero.
E’ più opportuno creare manualmente il file e caricarlo nella root.
Per Concludere
Non essere troppo nervoso quando ti accingi a lavorare col file, anche se non ti sei mai cimentato prima. Potresti scoprire con gran stupore che in fondo è semplice da utilizzare e configurare.
Una volta che avrai preso familiarità con i dettagli del file, sarai in grado di migliorare i risultati, di esser utile all’utenza e ai robot dei motori di ricerca.
Se imposti correttamente il tuo file, aiuterai i robot dei motori di ricerca a spendere egregiamente i loro crawl budget senza sprecare inutilmente tempo e risorse nella ricerca di pagine che non occorre sottoporre a scansione.
Questo li aiuterà di certo ad organizzare e visualizzare nel miglior modo possibile i contenuti nelle SERP, il che significherà a tua volte che avrai più visibilità.
Tieni presente che non sono necessari molto tempo e molti sforzi per configurare il tuo file.
Per la maggior parte dei casi si tratta di una configurazione da fare una tantum, sulla quale apportare volta per volta quelle piccole modifiche che ti aiuteranno ad “impreziosire”.
Effettuare delle piccole modifiche a volte può avere un grande impatto.
Utilizzare il file vuol dire apportare delle modifiche significative capaci di fare la differenza.
Questo piccolo file di testo è un must che si rispetti.
Se non ce l’hai aggiungilo subito alla cartella principale del tuo sito. E’ un processo molto semplice, ma che apporterà mille vantaggi.