Sono ormai passati svariati anni da quando Google ha avviato la propria lotta ai contenuti di scarsa qualità, costringendo, così, numerosi SEO ad aggiustare la propria rotta verso la creazione di contenuti originali e di qualità.

Il motore di ricerca, infatti, ha qualche anno fa lanciato l’aggiornamento Panda, che, tra una serie di compiti vari, ha quello di penalizzare (o meglio, filtrare) i siti web che non presentano contenuti di qualità.

Spesso, in particolare, si ha paura dei contenuti copiati sul web.

Ma che cosa si intende, nello specifico, con contenuto duplicato e quali sono, in tal senso, i requisiti che possono portare ad una penalizzazione?

Nelle prossime righe risponderò a questa domanda e ti spiegherò come evitare qualunque problema.

Google Penalizza i Contenuti Duplicati?

Prima di tutto, chiariamo: non esiste una penalizzazione specifica.

Google e i suoi ingegneri sanno che il web è pieno di contenuti che si ripetono in molte pagine web, e più che penalizzarli, tende a posizionare una singola pagina web per ogni contenuto copiato.

Faccio un esempio: se copi un articolo dalla pagina di A, che parla di un certo argomento e lo incolli sul tuo sito web B, Big G. noterà che i 2 offrono lo stesso contenuto per quell’argomento.

In genere l’MDR valuterà se dare visibilità e dar visibilità alll’articolo nella versione presente su A oppure su B.

Difficilmente, per keyword e ricerche importanti, verrà offerto in SERP due volte lo stesso contenuto.

Quindi, se per quella parola chiave è presente il contenuto e la pagina del web A, allora il responsabile del web B dovrà rendere originale il contenuto sul suo sito per aver speranze di rankare.

Contenuti Duplicati: Cosa Sono?

I contenuti duplicati sono pagine web che hanno contenuti o testi molto simili, e il termine contenuto duplicato può interessare un sito web sia internamente che esternamente.

Contenuti Duplicati Interni

Nel primo caso il problema sta nel fatto che il ha molte pagine web con stessi contenuti, o contenuti molto simili tra loro, all’interno dello stesso.

Le cause possono essere varie, come una gestione non corretta dei redirect 301, la creazione di pagine parametrate che generano centinaia e centinaia di URL, una generazione non corretta di filtri.

Se le pagine con contenuti copiati non hanno motivo d’esistere, la cosa migliore è cancellarle.

Se invece han motivo di esistere (come per esempio le pagine filtro degli e-commerce), allora una corretta gestione di canonical e noindex risolverà la situazione.

Tutte queste casistiche, come puoi facilmente intuire, riguardano errori involontari presenti all’interno di un sito web che fanno percepire la duplicazione e portano ad una conseguente riduzione di ranking e visibilità.

Contenuti Duplicati Esterni

Quando si parla di duplicazione dei contenuti esterna, invece, il discorso è molto diverso e, nella maggior parte dei casi, parliamo di un contenuto presente sul web che è stato copiato.

Si fa riferimento a contenuti che vengono copiati da altre pagine web e che, in questo modo, talvolta violano i diritti di chi li ha scritti.

Sebbene questa pratica possa sembrare ad alcuni assolutamente innocente, questo modo d’agire non piace per niente.

In particolare, è un problema che affligge molti e-commerce che analizzo e di cui faccio consulenze.

Talvolta il problema è dovuto al fatto che i contenuti per le schede prodotto e le categorie vengono copiati e incollati dai cataloghi dei produttori.

A volte la soluzione è quella di rendere di valore i contenuti delle pagine più importanti a livello strategico, mentre è sempre una buona soluzione arricchire i propri contenuti, ad esempio, con recensioni originali che contribuiscono a rendere uniche e di valore le pagine.

Contenuti Spinnati

Ci sono molti software online che spinnano i contenuti, generando nuovi contenuti originali in pochi istanti.

In pratica, per ogni frase, vanno a sostituire tutti i termini con dei sinonimi, in modo tale da fornire variazioni più o meno leggibili e comprensibili degli stessi concetti.

Attenzione, perchè cerca di individuare i contenuti così generati, e di non dar loro visibilità immeritata.

L’algoritmo che si occupa di scovare e penalizzare i siti che contengono contenuti di scarsa qualità si chiama Panda e ha il compito di pulire i risultati di ricerca, a favore, invece, di contenuti originali e di qualità.

L’obiettivo del search engine, dunque, è, in primis, quello di migliorare l’esperienza del navigatore e, in secundis, quello di fare giustizia levando ranking a coloro che non se lo sono guadagnato.

Duplicazione Interna e Indicizzazione

Come ti ho già accennato, se il tuo web contiene più pagine simili o uguali tra loro, potresti portare Googlebot, cioè il robot o crawler che legge, a perder tempo in pagine che sono una la copia dell’altra.

Questi problemi di scansione possono portare a un peggioramento dei risultati.

Se le pagine con contenuti copiati o comunque con testi molto simili sono utili all’utente, per risolvere questa problematica opero in genere attraverso l’utilizzo di canonical che indicano qual è la pagina di riferimento per un determinato contenuto.

Duplicazione Esterna: Indicizzazione

Con la duplicazione esterna si fa riferimento a due contenuti testuali presenti in maniera identica su domini separati.

Se, infatti, un testo viene proposto in maniera identica o, comunque, simile su due web diversi, interviene il filtro antiduplicazione, che dà visibilità alla pagina presente sul più autorevole.

Attenzione: per scegliere a quale dominio dar visibilità quando ci sono contenuti identici, non prende in considerazione la data di pubblicazione, ma l’autorevolezza del dominio.

Per esempio, BarInedita è una rivista online di ottima qualità. Ci son ragazzi che scrivono ottimi articoli, così tanto che La Repubblica ha iniziato a copiarne i contenuti.

Il risultato è stato che, anche se La Repubblica pubblicava lo stesso articolo successivamente (perchè lo copiava da BarInedita), veniva comunque premiato in quanto più autorevole.

Bisogna quindi lavorare per aumentare l’autorevolezza.

Nel centro assistenza, infatti, è possibile trovare la seguente affermazione:

Presta particolare attenzione alla diffusione di contenuti su altri siti.
Se pubblichi i tuoi contenuti, visualizzerà sempre la versione ritenuta più appropriata per gli utenti in ciascuna ricerca. Tale versione può essere o meno quella da te preferita.

Cosa Sono i Thin Content?

E a questo punto della nostra panoramica si affaccia un nuovo termine: thin content.

Panda, l’algoritmo che individua i contenuti non meritevoli di avere visibilità, punta a individuare i thin content, più che i copiati (come ha affermato recentemente anche il trend analyst di John Mueller su Twitter).

Il termine thin content, dunque, letteralmente fa riferimento ai contenuti scarni e che non arrecano alcun valore aggiunto al navigante del web.

In poche parole sono pagine che non rispondono al search intent e lasciano il navigatore insoddisfatto.

Questo tipo di pagine sono solitamente contenuti che vengono generati automaticamente, pagine affiliate con nessun valore aggiunto, pagine copiate e pagine doorway.

Per esempio, mi son trovato spesso ad analizzare siti che avevano per obiettivo molte keyword locali (ad esempio: fotografo matrimoni roma, fotografo matrimoni milano e così via).

Per raggiungere tale scopo, venivano riempiti di pagine tutte con lo stesso testo, e l’unica differenza tra una pagina e l’altra era la città menzionata.

Insomma, queste pagine, chiamate doorway, sono pagine che non offrono valore e ingannano il motore di ricerca.

Come Evitare la Penalizzazione per Thin Content?

Ma come facciamo ad evitare che Google faccia scattare il filtro Panda per thin content?

Nel 2011 gli ingegneri del motore di ricerca hanno rilasciato delle linee guida sulle caratteristiche che deve avere un sito web per essere ritenuto di qualità.

Vediamole insieme:

  • le informazioni riportate all’interno della pagina devono essere affidabili;
  • l’articolo non deve contenere informazioni mendaci o superficiali;
  • i contenuti presenti non devono essere stati copiati o non devono essere ridondanti (ripetendo più volte, dunque, gli stessi concetti);
  • non devono essere presenti errori di ortografia o stilistici;
  • la pagina deve avere un valore aggiuntivo rispetto ad altre pagine presenti sul web per la stessa SERP;
  • gli annunci pubblicitari non devono infastidire l’utente o, ancor peggio, impedirgli la lettura dell’articolo;
  • gli articoli devono avere una lunghezza adeguata rispetto alla complessità del tema trattato.

Il filtro penalizza tutti i contenuti che non rispettino le linee guida di cui sopra.

Possono essere penalizzati, per esempio:

  • pagine che presentano contenuti testuali brevi e che non soddisfano in alcun modo l’intento di ricerca dell’utente del web;
  • chi presenta pubblicità in maniera eccessiva rispetto al contenuto testuale presente all’interno della stessa pagina (mi vengono in mente quelli  che ogni quattro, cinque righe presentano un banner).
  • chi riporta contenuti copiati, sia totalmente che parzialmente;
  • pagine che trattano argomenti e presentano testi molto simili e in modo poco differente;
  • siti che presentano pagine vuote;
  • popup invasive che non consentono una corretta lettura dell’articolo da parte dell’utente;
  • link affiliati all’interno del sito non abbiano l’attributo impostato sull’opzione nofollow.

Infine, se ai problemi qualitativi si somma una forte sovra ottimizzazione per specifiche keywords, in particolare quelle di natura commerciale, il rischio di essere penalizzato da Panda è alto.

I primi aggiornamenti Panda erano individuabili in maniera più immediata, anche perché i colpiti avevano un crollo immediato e sostanziale del traffico organico il giorno stesso dell’annuncio del rilascio dell’update.

Ora la situazione è un po’ cambiata, anche perché ha deciso di non annunciare più ufficialmente il rilascio degli aggiornamenti, che sono tanti e continui.

Cura sempre al massimo la qualità dei contenuti del tuo sito web ed i collegamenti presenti al suo interno anche perché prevenire è meglio che curare.

Uscire da una penalizzazione Panda, infatti, è possibile ma complicato ed è assolutamente meglio fare un lavoro cautelativo a priori onde evitare penalizzazioni di Google.

Risolvere Duplicazioni Interne: Noindex, Canonical, Htaccess

Le duplicazioni interne, spesso, si verificano quando si creano attraverso i CMS o quando si ha a che fare con siti di dimensioni molto grandi (come può essere, ad esempio, uno shop online).

In particolar modo, le URL duplicate non solo rappresentano un problema SEO, ma non sono sicuramente per l’utente una bella esperienza.

Ogni sito internet ha un suo crawl budget, il che significa che ha un suo potenziale di spidering del bot per arrivare in profondità.

Se è autorevole e, soprattutto, presenta una buona struttura, per il bot è più facile andare a rintracciare tutte le URL e scansionarle.

In caso contrario si verifica qualcosa che è molto frequente per gli shop online, ovvero l’impossibilità di far indicizzare tutte le pagine.

A questo, inoltre, si aggiunge che trovare le pagine più interne e gerarchicamente inferiori è decisamente più difficoltoso, e a questo problema si ovvia solitamente con il caricamento della Sitemap XML.

Senza contare che le URL copiate portano anche alla dispersione del pagerank verso risorse non canoniche.

Con il termine pagina canonica, infatti, si fa riferimento all’URL principale (e più importante) da cui l’utente accede ad una risorsa. Se esistono più URL per accedere allo stesso contenuto, allora queste altre secondarie vengono considerate come non canoniche.

Una situazione in cui la stessa risorsa è accessibile da centinaia di URL diverse altro non fa che sperperare il crawl budget e il page rank.

Questo porta, dunque, ad un calo della visibilità e ad una cannibalizzazione per le keyword.

Le principali tipologie di duplicazione sono:

  • HTTP – HTTPS;
  • www – non www;
  • URL da filtri (in questo caso facciamo riferimento a quelli shop online che consentono di filtrare la ricerca in base al prezzo, al colore o ad altre caratteristiche. Questi filtri generano URL parametrizzate);
  • Contenuti in syndacation;
  • URL con o senza slash finale.

Bene. Ti starai chiedendo: Ma come faccio a prevenire o a risolvere tutti questi possibili problemi tecnici?

Gli strumenti sono principalmente quattro:

  1. l’eliminazione della pagina;
  2. il rel=canonical;
  3. il meta noindex;
  4. il redirect 301.

La prima soluzione, cioè l’eliminazione della pagina, è il migliore se la pagina non ha nessuna utilità per il visitatore.

La seconda, ovvero il rel=canonical indica quella che deve essere la pagina canonica. Questo, dunque, va inserito nell'<head> della pagina in tutte quelle pagine non canoniche, e anche nella stessa pagina canonica.

È bene precisare, però, che stiamo comunque parlando di una sorta di consiglio che diamo al motore di ricerca, che non è detto che segua il suggerimento alla lettera.

È importante, però, cercare comunque di evitare di compiere gli errori più comuni, come inserire più link canonical in un’unica pagina, puntare il link canonico verso pagine che sono bloccate con il noindex, o puntare una categoria di prodotti ad una pagina prodotto, e così via.

Un’alternativa al canonical è, invece, il meta noindex. Questo può sempre essere inserito nell'<head> o nelle intestazioni HTTS ed eviterà che la pagina venga indicizzata, evitando così che il bot percepisca la copiatura.

Se il canonical è da usare per pagine utili per l’utente, con contenuti di valore ma molto simili ad altre, il noindex va bene per le pagine con contenuti scarsi.

Ultima alternativa è quella di usare il redirect 301, se non vogliamo che un’URL sia più accessibile al visitatore, e se al contempo ce n’è un’altra equivalente sul sito.

Non utilizzare, invece, il comando disallow in Htaccess per liberarti dalle pagine troppo simili: usare il disallow tramite l’htaccess non porta alcun beneficio, in quanto rischi che indicizzi comunque la risorsa, senza poter accedere al contenuto.

I Tag dei Blog di WordPress e Joomla

Se hai un blog, ad esempio sui CMS WordPress e Joomla, fa attenzione alla struttura e alla scelta dei tag.

Infatti le pagine tag, così come le categorie, sono dei contenitori di altri contenuti, quindi sono spesso pagine che raccolgono contenuti non originali.

Quando usi i tag, fallo con cura e in maniera strategica, creando solo quelli che davvero servono, e che possano fornire utilità e valore per i tuoi lettori.

Strumenti e Tool per Contenuti Duplicati: Evitarli e Scoprirli

Abbiamo affrontato insieme, dunque, le varie tipologie e possibilità di contenuti duplicati sul web che possono influire sui risultati, e le strategie per evitare che il problema si verifichi.

Fortunatamente ci vengono in soccorso i tool e strumenti per contenuti copiati che permettono di effettuare un controllo approfondito.

Qui ti indico tool e strumenti che ritengo personalmente i più validi.

Si tratta di tool gratuiti e non, che ti consentono di scoprire ed evitare la duplicazione di contenuti, con tutti i problemi che essi portano.

Ecco gli strumenti:

Siteliner

Questo tool è completamente gratutito. Permette di individuarli all’interno del tuo sito web e ha anche molte altri utili funzioni.

Basta inserire l’URL.

Copyscape

Copyscape si concentra più sui casi di duplicazione esterna.

Basta inserire l’URL di proprio interesse e Copyscape mostra le eventuali copiature.

Ne esiste una versione a pagamento che consente, invece, di inserire il testo che si desidera verificare.

Duplicate Content Checker di Review Tools

Questo tool è molto utile sia per verificare la presenza di duplicazioni interne, che per quelle esterne.

È sufficiente inserire l’URL per ottenere gratuitamente l’analisi.

DupliChecker

La grande potenzialità di questo tool sta nella possibilità di inserire il testo di proprio interesse manualmente o tramite il caricamento da file.

Il tool verifica non solo l’eventuale duplicazione ma anche la percentuale in cui questo è stato copiato.

Plagiarism

Questo strumento è disponibile in una versione gratuita, per cui è necessaria la registrazione, e in una versione a pagamento (che dà accesso a funzionalità maggiori).

Si può inserire sia il testo da controllare che l’URL della pagina.

Plagium

Come lo strumento precedente, anche Plagium ha due versioni: una gratuita e una a pagamento.

La prima offre un numero limitato di ricerche al mese e permette di inserire solo il testo che si desidera controllare.

La seconda, invece, permette di ottenere un numero maggiore di risultati grazie ad una ricerca più approfondita, nonché di controllare direttamente i documenti in word o pdf.

Plag Scan

Questo strumento è a pagamento e offre vari piani che partono da un costo di circa 5 dollari per ricerche su 5000 parole. Permette di individuare i contenuti incriminati e di rintracciarli.

Inoltre consente di confrontare le varie pagine tra di loro.

In linea di massima ti consiglio di effettuare la tua ricerca utilizzando più di uno di questi strumenti, così da ottenere un risultato più affidabile e più completo.

Come Risolvere Duplicazioni Esterne

Nei paragrafi precedenti ti ho già spiegato quanto sia importante personalizzare i contenuti il più possibile, rendendoli unici ed originali.

Questo, infatti, rappresenterà un valore aggiunto per l’utente, ma anche per Google, che così migliorerà i risultati.

Quello che intendo con personalizzazione è la realizzazione di un testo che rispecchi il tono e lo stile dell’azienda, e che illustri al meglio i vari prodotti.

Non devi riscrivere con parole diverse ciò che già esiste ma devi, invece, creare il tuo contenuto da zero.

Questo richiede un dispendio di tempo maggiore, ma corrisponde anche ad una maggiore resa.

Ma come dobbiamo comportarci, invece, se sono altri ad aver copiato i nostri contenuti?

Da quando inserisci il tuo testo online, c’è da valutare la possibilità che questo possa essere copiato su altri siti.

A volte riesce ad individuare chi ha copiato da chi, ma purtroppo questo non sempre accade e può portare ad una perdita di ranking da parte tua e ad un miglioramento di altri siti che, anche se ti hanno copiato, posseggono maggiore autorevolezza (purtroppo, ahimè, è così!).

Cosa fare in questo caso?

In una situazione del genere ti si pongono davanti due possibili opzioni:

  • La prima è quella di contattare il webmaster in questione, informandolo del fatto che ti sei accorto della copiatura ed invitandolo a rimuovere immediatamente il contenuto;
  • la seconda, che solitamente interviene quando la prima opzione si è, purtroppo, rivelata inutile, è quella di segnalare il tutto tramite lo strumento di rimozione dei contenuti. Il motore di ricerca, una volta ricevuta la segnalazione, verificherà l’autenticità della segnalazione e provvederà a rimuovere il contenuto dal suo indice web.

Ma cosa faccio, invece, se voglio concedere un mio testo in licenza a terzi?

La risposta in questo caso è molto semplice: basta che i siti che vogliono utilizzare il tuo testo utilizzino il canonical verso il tuo contenuto, oppure mettano il tag noindex.

Questo farà sì che le pagine in questione non vengano percepite come copiate, evitandoti le penalizzazioni di cui abbiamo ampiamente già discusso.

Tramite il canonical, otterrai anche link juice dalla pagina che ripropone il tuo contenuto.

Attento però: si tratta comunque di una pratica che sconsiglio, in quanto non è detto che rispetti il canonical.

Chiarimenti sui Contenuti Duplicati sul Web

Nel 2016 ha diffuso un comunicato per cui non esisterebbero penalizzazioni dirette per contenuti copiati, ma, se si possiede un contenuto di questo genere, ne consegue una sorta di prezzo da pagare.

Devi sapere che esistono due tipi di penalizzazione: la penalizzazione manuale e quella algoritmica.

La differenza principale tra le due sta nel fatto che per la penalità manuale si riceve un messaggio direttamente nella Search Console, dove il motore di ricerca informa della penalizzazione e della ragione per cui è stata messa in atto (con relativa possibilità di agire per trovare un rimedio).

Nel caso, invece, di penalizzazione algoritmica, come ti ho anche già accennato nei paragrafi precedenti, sei tu a dover capire quale penalizzazione ti ha colpito, cercando una soluzione.

Voglio ricapitolare, con te, dunque, tutte le operazioni da mettere in pratica per evitare che si verifichino:

  • la struttura URL deve essere assolutamente coerente con il contenuto della tua pagina;
  • solitamente è consigliabile utilizzare domini di primo livello per i multilingua;
  • verifica periodicamente che i contenuti non siano stati copiati e se li concedi ad altri verifica che vi abbiano inserito canonical o noindex;
  • indica alla Search Console se preferisci per l’indicizzazione la versione con o senza www;
  • non pubblicare pagine senza contenuti (o se lo fai assicurati che non siano indicizzate);
  • imposta correttamente il CMS;
  • scrivi testi sempre originali.

Ecco dunque le principali soluzioni agli eventuali problemi che hai rilevato.

Rosilda Sergi

About Rosilda Sergi

Mi chiamo Rosilda Sergi. Dal 2009 è iniziata la mia scalata verso la conoscenza della scrittura digitale e di tutte le sue sfumature. Nel corso degli anni, ho avuto modo di trasformare la mia passione per la scrittura e la comunicazione in qualcosa di più concreto, orientandomi verso l'espansione delle mie skills e focalizzando la mia attenzione su aspetti come l'ottimizzazione SEO e la comunicazione persuasiva.

10 Comments

Leave a Reply