Il file robots.txt molto spesso viene trascurato, addirittura dimenticato sia dai gestori dei siti web che dai SEO in genere.

Invece è bene ricordare che rappresenta uno degli strumenti più importanti di cui dispone il posizionamento SEO. Che tu sia un novellino oppure un veterano esperto di posizionamento SEO, non puoi prescindere dal file robots.txt.

In questo articolo ti spiego cos’è il file robots.txt e come sfruttarlo al massimo per il posizionamento sui motori di ricerca.

Ho creato 4 video gratuiti in cui ti spiego il mio esatto metodo per apparire su Google, per permetterti di ottenere i miei stessi risultati.

Scaricali gratuitamente cliccando sul pulsante sotto il video, e inizia questo percorso con me. Altrimenti, continua la lettura dell’articolo più in basso.

4 VIDEO+PDF: Scopri il Mio Metodo di Posizionamento su Google Semplice, Passo Passo e Pratico, per TUTTI i Siti Web


CLICCA QUI E ACCEDI AI VIDEO GRATIS

 

Sitemap nel robots.txt e Crawl Budget

Il file robots.txt può essere utilizzato per espletare una serie di funzioni.

Permette di indicare ai motori di ricerca dove si trova la Sitemap XML del tuo sito web (anche se dovresti indicarla anche in Search Console), consente di dire agli spider quali pagine occorre scansionare quali no, inoltre è anche un ottimo strumento utile per gestire il crawl budget dei siti.

Cos'è il crawl budget?  E' ciò che Google utilizza per eseguire efficacemente la scansione e l'indicizzazione di un sito web e delle pagine dei siti.

Per quanto grande sia Google, vi è ancora un numero limitato di risorse disponibili per poter eseguire la scansione e l'indicizzazione del contenuto dei siti.

Se il tuo sito ha solo poche centinaia di URL, Google dovrebbe essere in grado di eseguire facilmente sia la scansione che l'indicizzazione delle pagine del tuo sito.

Però, se il tuo sito è grande, e quindi contiene migliaia di pagine con molte URL magari generate automaticamente, parametrizzate, e da non posizionare,  può succedere che Google non esegua la scansione di pagine importanti e così perderai un sacco di traffico e visibilità.

In casi come questo è dunque davvero importante stabilire le priorità di cosa, quando e quanto indicizzare un sito web.

Google ha confermato che avere molte URL di scarso valore influisce negativamente sulla scansione e l'indicizzazione di un sito.

A tal proposito, un file robots.txt può tornarti utile proprio con quei fattori che influenzano il budget di scansione dei siti web.

Se vuoi gestire al meglio il crawl budget del tuo sito puoi sfruttare il file robots.txt.

Puoi infatti inserire il comando disallow nel robots.txt, che impedisce agli spider che scegli di scansionare la pagina, salvando quindi risorse per quelle più importanti.

Questo ti assicurerà che i motori di ricerca si dedichino al tuo sito nel modo più efficiente possibile (soprattutto se hai un sito di grandi dimensioni) e che eseguano la scansione solo delle pagine più importanti, senza perder tempo con pagine come login, signup oppure thank you pages. O, ancora peggio, con migliaia di pagine parametrizzate.

NB: se una pagina è già indicizzata dal motore di ricerca è inutile poi bloccarla con il disallow nel robots.txt, in quanto Google continuerà a tenerla nell'indice. In tal caso inserisci un noindex nella pagina.

Allow, Disallow, Noindex nel File robots.txt

Sappi che prima che i robot (come ad esempio Googlebot, Bingbot e via dicendo) eseguano la scansione di una pagina web, verificheranno anzitutto una cosa, ovvero che vi sia un file robots.txt.

Se così è seguiranno e rispetteranno le indicazioni contenute all'interno di quel file.

Un file robots.txt può essere un potente strumento di posizionamento SEO per controllare il modo in cui i crawler/robot dei motori di ricerca accedono ad alcune aree del tuo sito.

E' importante capire il modo in cui funziona il file robots.txt perchè in caso contrario potresti accidentalmente incappare in qualche serio problema, come impedire a Googlebot o a qualsiasi altro bot di eseguire la scansione dell'intero sito, impedendogli così di comparire nei risultati di ricerca!

Se usato correttamente il robots.txt ti permetterà di:

  1. Bloccare l'accesso a intere sezioni del sito;
  2. Evitare che le pagine dei risultati di ricerca interne del tuo sito vengano scansionate, indicizzate o mostrate nei risultati di ricerca;
  3. Specificare la posizione di una o più Sitemap nel robots.txt;
  4. Ottimizzare il crawl budget bloccando l'accesso a pagine di basso valore (come login, thank you, carrelli della spesa e così via);
  5. Impedire che determinati file sul tuo sito web vengano indicizzati.

Esempi di robots.txt

Ecco alcuni esempi che mostrano in che modo è possibile utilizzare il file robots.txt sul tuo sito.

  • Con robots.txt puoi consentire a tutti i crawler/robot del web l' accesso ai contenuti del tuo sito:

User-agent: *

Disallow:

  • E' possibile bloccare l'accesso ai tuoi contenuti per tutti i crawler/bot del web:

User-agent:*

Disallow: /

Avrai modo di capire quanto facile sia commettere un errore quando crei i tuoi file robots.txt poiché la differenza dal bloccare la visualizzazione dell'intero sito sta una semplice barra nella direttiva disallow (Disallow: /).

  • E' possibile effettuare il Blocco di crawler/bot specifici all'interno di una data cartella:

User-agent: Googlebot

Disallow: /

  • Puoi bloccare un web crawler/bot in una pagina specifica del tuo sito:

User-agent:

Disallow: /thankyou.html

  • Puoi escludere tutti i robot dal server:

User-agent: *

Disallow: / cgi-bin /

Disallow: /tmp /

Disallow: / junk /

Ricorda che se desideri assicurarti che un bot non esegua il crawl di determinate pagine o directory sul tuo sito, è necessario inserire queste pagine e/o directory nel disallow del file robots.txt, come specificato negli esempi di cui sopra.

Se vuoi prendere in esame il modo in cui Google gestisce il file robots.txt, ti basterà accedere alla sua guida specifica relativa al file robots ("robots.txt specifications guide").

E' importante conoscere le dimensioni dei file robots.txt dei vari siti perchè Google ha un limite di dimensioni massime del file corrente per il file robots.txt.

Sappi che la massima dimensione è impostata a 500 KB.

robots.txt Generator

Per generare il file in realtà non ti serve nulla di particolare: si tratta di un semplice file di testo che puoi scrivere da te.

Tuttavia, puoi anche utilizzare robots.txt generator come quello che trovi su http://tools.seobook.com/robots-txt/generator/

Come Creare un File robots.txt

Il processo per la creazione di un file robots.txt per il tuo sito sarà abbastanza semplice, tuttavia non dimenticare che il rischio di commettere un errore sarà sempre dietro l'angolo.

Non lasciare però che ciò ti scoraggi, quindi sentiti libero di dedicarti alla creazione o alla modifica di un file robot per il bene del tuo sito.

Vediamo allora in cosa consiste questo processo di creazione dei file robots.txt e come creare il tuo file robots con facilità.

Una volta che avrai preso dimestichezza con la creazione o la modifica del file robots del tuo sito, dovrai necessariamente testarlo per vedere se è stato configurato correttamente.

Puoi anche dare uno sguardo a queste linee guida sul sito di Google.

Check del File robots.txt

Se non sei sicuro che il tuo sito ne abbia uno, puoi eseguire un rapido controllo.

Ti basterà andare al dominio principale dei tuoi siti e quindi aggiungere /robots.txt alla fine dell'URL.  Ad esempio: jfactor.it/robots.txt

Se non visualizzi nulla vuol dire che non hai un file robots.txt per il tuo sito. Quindi sarà questo il momento giusto per provare a crearne uno.

Le Migliori Pratiche per Google

  1. Assicurati che tutte le pagine importanti siano fluide e scorrevoli e che i contenuti senza alcun valore reale nella ricerca vengano bloccati;
  2. Non bloccare i file JavaScript e CSS dei tuoi siti;
  3. Fai sempre un rapido controllo del tuo file per assicurarti che non vi siano state modifiche;
  4. Fai un uso corretto delle maiuscole per directory, subdirectory e file names;
  5. Posiziona il file nella directory principale del tuo sito web;
  6. Il file fa distinzione tra maiuscole e minuscole, quindi ricorda che deve essere denominato "robots.txt" (senza nessuna variazione);
  7. Non utilizzare il file robots.txt per nascondere le informazioni di un utente privato poiché queste resteranno visibili;
  8. Aggiungi la posizione delle tue Sitemap XML nel robots.txt;
  9. Assicurati di non bloccare alcun contenuto o sezione del tuo sito di cui vuoi far eseguire la scansione e l'indicizzazione su Google o sugli altri motori di ricerca.

Da Tenere a Mente per Google

Se hai un sottodominio o più sottodomini, ricorda che dovrai disporre di un file robots.txt per ciascun sottodominio e certamente anche per il tuo dominio principale, tipo: blog.jfactor.it/robots.txt e jfactor.it/robots.txt.

Come accennato in precedenza nella "best practice section", rammenta che non bisogna utilizzare il file robots.txt per i dati sensibili, come le informazioni di utenti privati ​​e la loro visualizzazione nei risultati di ricerca.

Questo perchè può succedere che altre pagine possano collegarsi a tali informazioni e se c'è un collegamento diretto questo ignorerà le regole del robots.txt e quel contenuto potrebbe essere indicizzato.

Se vuoi impedire che le tue pagine vengano realmente indicizzate nei risultati della ricerca, usa un metodo diverso come ad esempio l'aggiunta a quelle pagine di una protezione con password.

Google infatti non accede a un sito/pagina protetto da password, quindi non sarà in grado di eseguire la scansione della stessa.

Come Impostare il File e Aggiungerlo

In genere un file robots.txt viene archiviato nella root del tuo sito Web.

In questo modo potrà essere facilmente reperito. Ad esempio, se il tuo sito fosse https://jfactor.it, il tuo file robots.txt sarebbe reperibile in: https://jfactor.it/robots.txt.

Posizionando il file nella cartella principale o nella directory principale del tuo sito, sarai in grado di controllare la scansione di tutti le URL nel dominio https://jfactor.it.

Un'altra cosa importante da ricordare è che un robots.txt fa distinzione tra maiuscole e minuscole, quindi assicurati sempre di nominare il file "robots.txt" senza maiuscole. Cose tipo Robots.txt, oppure ROBOTS.TXT, robots.TXT o con qualsiasi altra variazione avente lettere maiuscole non saranno valide.

Tester del robots.txt

Una volta aggiunto al sito il tuo nuovo file o più semplicemente se hai apportato degli aggiornamenti a quello che hai già, è importante ricordarsi di testarlo.

In altre parole è importante accertarsi che funzioni perfettamente.

Sebbene ci siano molti siti e strumenti diversi che puoi utilizzare per testarlo, il consiglio è di propendere per l'utilizzo del tester del file robots.txt di Google che trovi nella vecchia versione di Search Console.

Dunque, accedi alla Search Console del tuo sito , scorri verso il basso sino alla fine della pagina e fai clic su → Vai alla versione precedente

Quindi clicca su Scansione → Tester robots.txt

Da qui in poi, potrai testare il file robots.txt del tuo o dei tuoi siti aggiungendo il codice del tuo file nella casella e facendo clic sul pulsante "Test".

Se tutto procede per il meglio, il pulsante di test rosso diventerà verde (passando allo stato di "Allowed"), questo significa che il tuo nuovo file robots.txt, che hai creato o modificato, adesso è valido.

Non ti resta quindi che caricarlo nella directory principale dei siti.

Google Ha Aggiornato gli Standard dei File robots.txt dal 1 Settembre 2019

Google ha apportato delle modifiche al modo in cui effettua la comprensione di alcune direttive.

A partire dal 1 ° settembre, dunque, Google ha smesso di assecondare le regole non supportate e non pubblicate nel protocollo di esclusione dei robot.

Ciò significa che Google non supporterà più la direttiva noindex citata nel file.

Se in passato hai utilizzato la direttiva noindex in questo modo per controllare l'indicizzazione del sito web, dal primo settembre ricorda che non sarà più possibile.

Non temere, esistono diverse opzioni alternative che puoi utilizzare, come ad esempio il noindex ed i meta tag robot; entrambi questi tag sono supportati sia nelle intestazioni di risposta HTTP che in HTML.

Ad ogni modo, è la direttiva noindex la maniera più efficace per rimuovere gli URL dall'indice di Google, quando il crawling è consentito.

Codici di Stato HTTP 404 e 410

Ricorda: entrambi questi codici di stato indicano che la pagina non esiste e che quindi, dopo essere state sottoposte a scansione ed elaborate, verranno eliminate dall'indice di Google tutte le URL che presentano questo codice.

Tuttavia, per la deindicizzazione serve tempo: Google, anche in presenza di errori 404 e pagine con 410, continua testardo a tentarne la scansione per diverso tempo, prima di rassegnarsi.

Protezione della Password

L'aggiunta della protezione con password è un ottimo modo per impedire a Google di vedere e scansionare alcune pagine del tuo sito o tutte le pagine del tuo sito (se pensiamo ad una versione dev del sito).

Nascondere una pagina dietro un codice d'accesso generalmente porterà a rimuoverla dall'indice di Google, in quanto questo non sarà in grado di inserire le informazioni richieste per procedere e vedere cosa c'è dietro il login.

Il Disallow nel robots.txt

I motori di ricerca possono solo indicizzare le pagine di cui sono a conoscenza (perchè possono trovarle e scansionarle), quindi bloccando la pagina o le pagine da scansionare significherà non indicizzarne il contenuto.

Ricorda però che Google potrebbe comunque trovare e indicizzare quelle pagine, tramite altre pagine che rimandano a esse: sitemap XML, link interni e backlink.

Search Console Rimuove lo Strumento URL

Lo strumento di rimozione della Search Console offre un modo rapido e semplicissimo che ti permetterà di rimuovere temporaneamente una URL dai risultati di ricerca di Google (temporaneamente perché questa opzione è valida solo per 90 giorni circa).

Successivamente, la tua URL potrà di nuovo apparire nei risultati di ricerca di Google.

Per rendere permanente la rimozione, dovrai seguire i passaggi di cui abbiamo parlato sopra, ovvero:

  • Blocca l'accesso al contenuto (con una password);
  • Aggiungi un tag noindex;
  • Crea un codice di stato http 404 o 410.

robots.txt per WordPress, Joomla e Altri CMS

Esistono diverse soluzioni per creare ed editare il trobots.txt se utilizzi WordPress, Joomla o altri CMS.

Ci sono plugin appositi, come lo stesso SEO Yoast per WordPress, che possono fare al caso tuo e aiutarti nel compito.

Tuttavia, il file robots.txt è davvero un semplice file di testo. Per tal motivo, ti sconsiglio di usare plugin che appesantirebbero il tuo sito web.

E' più opportuno creare manualmente il file e caricarlo nella root.

Per Concludere

Non essere troppo nervoso quando ti accingi a lavorare col file robots.txt, anche se non ti sei mai cimentato prima. Potresti scoprire con gran stupore che in fondo è semplice da utilizzare e configurare.

Una volta che avrai preso familiarità con i dettagli del file, sarai in grado di migliorare il posizionamento SEO del tuo sito, di esser utile all'utenza e ai robot dei motori di ricerca.

Se imposti correttamente il tuo file, aiuterai i robot dei motori di ricerca a spendere egregiamente i loro crawl budget senza sprecare inutilmente tempo e risorse nella ricerca di pagine che non occorre sottoporre a scansione.

Questo li aiuterà di certo ad organizzare e visualizzare nel miglior modo possibile i contenuti dei siti nelle SERP, il che significherà a tua volte che avrai più visibilità.

Tieni presente che non sono necessari molto tempo e molti  sforzi per configurare il tuo file robots.txt.

Per la maggior parte dei casi si tratta di una configurazione da fare una tantum, sulla quale apportare volta per volta quelle piccole modifiche che ti aiuteranno ad "impreziosire" il tuo sito.

In termini di posizionamento SEO effettuare delle piccole modifiche a volte può avere un grande impatto sul tuo sito web.

Utilizzare un file robots.txt vuol dire apportare delle modifiche significative capaci di fare la differenza.

Questo piccolo file di testo è un must per ogni sito web che si rispetti.

Se non ce l'hai aggiungilo subito alla cartella principale del tuo sito. E' un processo molto semplice, ma che apporterà mille vantaggi.

Cosa Dicono di Me?

Ecco qualcuno dei miei progetti e i risultati ottenuti.

Professionista serio ed onesto, preciso nel suo lavoro e determinato a superare gli obbiettivi preposti..svolto un lavoro di SEO solido e ben studiato per il posizionamento del sito della mia azienda arrivato a raggiungere nei tempi prefissati le prime posizioni.

Luca ArmeniseProprietario Autolavaggio Armenise di Bari

Il mio sito web non riceveva traffico, e non portava alcun nuovo cliente. Ho scelto di affidarmi a Filippo e, grazie a lui e alla sua esperienza come specialista SEO ho ottenuto risultati importanti in pochi mesi, raggiungendo la prima pagina su Google, nuovi contatti e nuovi clienti.

Alessandro VaccaDentistabari.org, Odontoiatra

Professionale e disponibile, con totale disponibilità nei miei confronti. Punta ad avere risultati il prima possibile, così che l’investimento fatto venga subito ripagato. Gli obbiettivi prefissati sono stati raggiunti entro pochi mesi, con totale soddisfazione.

Fulvio TonelliniE-commerce Cover Iphone

Tre cose ci hanno colpito di Filippoi: l'onestà, la preparazione e la precisione. Possiamo affermare che Filippo è veramente PREPARATO. Il suo lavoro è certosino e attentamente studiato. Motiva e spiega tutto. Risponde alle email ed è preciso nei report e nei tempi.

Alessandra VirgiliWellvitOnline.com, Responsabile Redazione

Sono felice di collaborare con Filippo. Filippo è molto preparato e appassionato del suo lavoro che svolge con precisione e serietà. Abbiamo raggiunto i risultati in poco tempo. Lo ringrazio per la disponibilità, pazienza e competenza.

Domenico DrovettiMetodoVegalcalino.com, Esperto di Nutrizione

Ritengo soddisfacente il rapporto lavorativo e umano. Al momento gli obiettivi concordati sono raggiunti o pressoché prossimi. Sei anche scrupoloso e rompicazzo come me nel mio lavoro; sono sinceramente felice di questa nostra collaborazione.

Enrico MeleInAttraction.com, Coach di Seduzione

We are very happy with Filippo's work, he is very professional. Thanks to his seo work, he have been able to improve our ranking from not appearing in the 8 first pages of Google to the 3rd position in several keywords

IsmaelSpeaking at home, Corsi di inglese

Grazie Filippo! Per la grande visibilità che mi ha garantito. Fa quanto dice, mi ha fatto risparmiare tempo e frustrazione, e i miei guadagni sono aumentati... di molto! Oltre ad essere un professionista è una brava persona e questo... non ha prezzo!

Agostini RiccardoAgostiniRiccardo.com, Public Speaking Coach

Filippo si è mostrato da subito disponibile a fornire spiegazioni esaustive e dettagliate circa il suo intervento ed i risultati ottenuti. Questo denota serietà e desiderio di trasparenza; qualità che personalmente reputo essenziali.

Giulio BorlaStudioLeVele.net, Psicologo Psicoterapeuta

Filippo, ottima persona piacevole e disponibile, ha portato ottimi risultati e adesso la collaborazione continua ormai da più di un anno e continuerà sempre.
Per noi Filippo è il miglior SEO che abbiamo trovato! Grazie.

Riccardo NavarraSanteNaturels.it, proprietario e-commerce

Ringrazio sinceramente Filippo Jatta perchè da quando ci siamo affidati a lui il nostro sito è ben indicizzato ed è molto visibile. Di conseguenza le vendite sono aumentate... Un genio

Maria MarraSindyBomboniere.it, Proprietaria E-Commerce

Contattami ora!

Puoi contattarmi compilando il form qui sotto per avere informazioni sui miei servizi SEO, oppure manda un messaggio WhatsApp al n. 348 09 06 338

Acconsento al trattamento dei miei dati personali secondo l'Informativa Privacy

Filippo Jatta

About Filippo Jatta

Filippo Jatta è consulente SEO per liberi professionisti e imprenditori. Dottore magistrale in Organizzazione e Sistemi Informativi presso l'Università Luigi Bocconi di Milano, dal 2008 è SEO specialist. Aumenta traffico e visibilità online di blog, e-commerce e portali, posizionando siti web su Google. Offre servizi di posizionamento sui motori di ricerca e corsi SEO, sia base che avanzati.

Vuoi Posizionare il Tuo Sito Su Google? Scrivimi su WhatsApp al numero 348 09 06 338