Sono ormai passati svariati anni da quando Google ha avviato la propria lotta ai contenuti di scarsa qualità, costringendo, così, numerosi SEO ad aggiustare la propria rotta e a puntare su un lavoro di posizionamento SEO volto alla creazione di contenuti originali e di qualità.

Il motore di ricerca, infatti, ha qualche anno fa lanciato l’aggiornamento Google Panda, che, tra una serie di compiti vari, ha quello di penalizzare (o meglio, filtrare) i siti web che non presentano contenuti di qualità.

Spesso, in particolare, si ha paura dei contenuti duplicati sul web.

Ma che cosa si intende, nello specifico, con “contenuto duplicato” e quali sono, in tal senso, i requisiti che possono portare ad una penalizzazione da parte del motore di ricerca?

Ho creato 4 video gratuiti in cui ti spiego il mio esatto metodo per posizionarti su Google, e permetterti di ottenere i miei stessi risultati.

Scaricali gratuitamente cliccando sul pulsante sotto il video, e inizia questo percorso con me. Altrimenti, continua la lettura dell’articolo più in basso.

4 VIDEO+PDF: Scopri il Mio Metodo di Posizionamento su Google Semplice, Passo Passo e Pratico, per TUTTI i Siti Web

CLICCA QUI E ACCEDI AI VIDEO GRATIS

 

Nelle prossime righe risponderò a questa domanda e ti spiegherò come evitare qualunque problema.

Google Penalizza i Contenuti Duplicati?

Google penalizza i contenuti duplicati o i testi molto simili?

Prima di tutto, chiariamo: non esiste una penalizzazione per contenuti duplicati.

Google e i suoi ingegneri sanno che il web è pieno di contenuti che si ripetono in molte pagine web, e più che penalizzarli, tende a posizionare una singola pagina web per ogni contenuto copiato.

Faccio un esempio: se copi un articolo dalla pagina del sito A, che parla di "posizionamento SEO" e lo incolli sul tuo sito web B, Google noterà che 2 siti offrono lo stesso contenuto per quell'argomento.

Quando qualcuno cercherà "posizionamento SEO" su Google, in genere il motore di ricerca valuterà se dare visibilità e posizionare l'articolo nella versione presente sul sito A oppure sul sito B.

Difficilmente, per keyword e ricerche importanti, Google offrirà in SERP due volte lo stesso contenuto.

Quindi, se per quella parola chiave Google posiziona il contenuto e la pagina del sito web A, allora il responsabile del sito web B dovrà rendere originale il contenuto sul suo sito per aver speranze di posizionarsi.

Contenuti Duplicati: Cosa Sono?

Cosa sono i contenuti duplicati sul web?

Si tratta di pagine web che hanno contenuti o testi molto simili, e il termine “contenuto duplicato” può interessare un sito web sia internamente che esternamente.

Contenuti Duplicati nello Stesso Sito: Interni

Nel primo caso il problema sta nel fatto che il sito ha molte pagine web con stessi contenuti, o contenuti molto simili tra loro, all'interno dello stesso sito.

Le cause possono essere varie, come una gestione non corretta dei redirect 301, la creazione di pagine parametrate che generano centinaia e centinaia di URL, una generazione non corretta di filtri.

Se le pagine con contenuti duplicati non hanno motivo d'esistere, la cosa migliore è cancellarle.

Se invece han motivo di esistere (come per esempio le pagine filtro degli e-commerce), allora una corretta gestione di canonical e noindex risolverà la situazione.

Tutte queste casistiche, come puoi facilmente intuire, riguardano errori involontari presenti all'interno di un sito web che fanno percepire la duplicazione al motore di ricerca e portano ad una conseguente riduzione di ranking e visibilità su Google.

Contenuti Duplicati Esterni

Quando si parla di duplicazione dei contenuti esterna, invece, il discorso è molto diverso e, nella maggior parte dei casi, parliamo di un contenuto presente sul web che è stato copiato da altri siti web.

Si fa riferimento a contenuti che vengono copiati da altre pagine web e che, in questo modo, talvolta violano i diritti di chi li ha scritti.

Sebbene questa pratica possa sembrare ad alcuni assolutamente innocente, questo modo d'agire a Google non piace per niente.

In particolare, è un problema che affligge molti e-commerce che analizzo e di cui faccio consulenze SEO.

Talvolta il problema è dovuto al fatto che i contenuti per le schede prodotto e le categorie vengono copiati e incollati dai cataloghi dei produttori.

A volte la soluzione è quella di rendere di valore i contenuti delle pagine più importanti a livello strategico, mentre è sempre una buona soluzione arricchire i propri contenuti, ad esempio, con recensioni originali che contribuiscono a rendere uniche e di valore le pagine.

Contenuti Spinnati

Ci sono molti software online che spinnano i contenuti, generando nuovi contenuti originali in pochi istanti.

In pratica, per ogni frase, vanno a sostituire tutti i termini con dei sinonimi, in modo tale da fornire variazioni più o meno leggibili e comprensibili degli stessi concetti.

Attenzione, perchè Google cerca di individuare i contenuti così generati, e di non dar loro visibilità immeritata.

L'algoritmo che si occupa di scovare e penalizzare i siti che contengono contenuti di scarsa qualità si chiama Google Panda e ha il compito di pulire i risultati di ricerca da siti di scarso valore, a favore, invece, di siti web con contenuti originali e di qualità.

L'obiettivo del motore di ricerca, dunque, è, in primis, quello di migliorare l'esperienza del navigatore e, in secundis, quello di fare giustizia levando ranking a coloro che vogliono posizionare il proprio sito web su Google senza esserselo guadagnato.

Duplicazione Interna e Indicizzazione

Come ti ho già accennato, se il tuo sito web contiene più pagine simili o uguali tra loro, potresti portare Googlebot, cioè il robot di Google che legge il tuo sito, a perder tempo in pagine che sono una la copia dell'altra.

Questi problemi di scansione possono portare a un peggioramento nel posizionamento del sito web.

Se le pagine con contenuti duplicati o comunque con testi molto simili sono utili all'utente, per risolvere questa problematica opero in genere attraverso l'utilizzo di canonical che indicano al motore di ricerca qual è la pagina di riferimento per un determinato contenuto.

Duplicazione Esterna: Indicizzazione

Con la duplicazione esterna si fa riferimento a due contenuti testuali presenti in maniera identica su domini separati.

Se, infatti, un testo viene proposto in maniera identica o, comunque, simile su due siti web diversi, interviene il filtro antiduplicazione, che dà visibilità alla pagina presente sul sito web più autorevole.

Attenzione: per scegliere a quale dominio dar visibilità quando ci sono contenuti identici, Google non prende in considerazione la data di pubblicazione, ma l'autorevolezza del dominio.

Per esempio, BarInedita è una rivista online di ottima qualità. Ci son ragazzi che scrivono ottimi articoli, così tanto che La Repubblica ha iniziato a copiarne i contenuti.

Il risultato è stato che, anche se La Repubblica pubblicava lo stesso articolo successivamente (perchè lo copiava da BarInedita), veniva comunque premiato in quanto più autorevole.

Bisogna quindi lavorare per aumentare l'autorevolezza del sito web.

Nel centro assistenza di Google, infatti, è possibile trovare la seguente affermazione:

"Presta particolare attenzione alla diffusione di contenuti su altri siti.
Se pubblichi i tuoi contenuti su altri siti, Google visualizzerà sempre la versione ritenuta più appropriata per gli utenti in ciascuna ricerca. Tale versione può essere o meno quella da te preferita."

Cosa Sono i “Thin Content”?

E a questo punto della nostra panoramica si affaccia un nuovo termine: “thin content”.

Che significa? Devi sapere che la duplicazione non è di per sè causa di filtro, o penalizzazione su Google.

Google Panda, l'algoritmo che individua i contenuti non meritevoli di avere visibilità sul motore di ricerca, punta a individuare i thin content, più che i duplicati (come ha affermato recentemente anche il trend analyst di Google John Mueller su Twitter).

Il termine “thin content”, dunque, letteralmente fa riferimento ai contenuti scarni e che non arrecano alcun valore aggiunto al navigante del web.

In poche parole sono pagine che non rispondono al search intent e lasciano il navigatore insoddisfatto.

Questo tipo di pagine sono solitamente contenuti che vengono generati automaticamente, pagine affiliate con nessun valore aggiunto, pagine duplicate e pagine doorway.

Per esempio, mi son trovato spesso ad analizzare siti che avevano l'obiettivo di posizionarsi per molte keyword locali (ad esempio: fotografo matrimoni roma, fotografo matrimoni milano e così via).

Per raggiungere tale scopo, i siti venivano riempiti di pagine tutte con lo stesso testo, e l'unica differenza tra una pagina e l'altra era la città menzionata.

Insomma, queste pagine, chiamate doorway, sono pagine che non offrono valore e hanno il solo scopo di posizionarsi su Google ingannando il motore di ricerca.

Come Evitare la Penalizzazione di Google per Thin Content?

Ma come facciamo ad evitare che Google faccia scattare il filtro Google Panda per thin content?

Nel 2011 gli ingegneri del motore di ricerca hanno rilasciato delle linee guida sulle caratteristiche che deve avere un sito web per essere ritenuto di qualità.

Vediamole insieme:

  • le informazioni riportate all'interno della pagina devono essere affidabili;
  • l'articolo non deve contenere informazioni mendaci o superficiali;
  • i contenuti presenti non devono essere stati copiati o non devono essere ridondanti (ripetendo più volte, dunque, gli stessi concetti);
  • non devono essere presenti errori di ortografia o stilistici;
  • la pagina deve avere un valore aggiuntivo rispetto ad altre pagine presenti sul web per la stessa SERP;
  • gli annunci pubblicitari non devono infastidire l'utente o, ancor peggio, impedirgli la lettura dell'articolo;
  • gli articoli devono avere una lunghezza adeguata rispetto alla complessità del tema trattato.

Il filtro penalizza tutti i contenuti che non rispettino le linee guida di cui sopra.

Possono essere penalizzati, per esempio:

  • siti web che presentano contenuti testuali brevi e che non soddisfano in alcun modo l'intento di ricerca dell'utente del web;
  • siti che presentano pubblicità in maniera eccessiva rispetto al contenuto testuale presente all'interno della stessa pagina (mi vengono in mente quei siti web che ogni quattro, cinque righe presentano un banner).
  • siti che riportano contenuti copiati, sia totalmente che parzialmente;
  • siti le cui pagine trattano argomenti e presentano testi molto simili e in modo poco differente;
  • siti che presentano pagine vuote;
  • siti con popup invasive che non consentono una corretta lettura dell'articolo da parte dell'utente;
  • siti i cui link affiliati all'interno del sito non abbiano l'attributo impostato sull'opzione “nofollow”.

Infine, se ai problemi qualitativi si somma una forte sovra ottimizzazione per specifiche keywords, in particolare quelle di natura commerciale, il rischio di essere penalizzato da Google Panda è alto.

I primi aggiornamenti di Google Panda erano individuabili in maniera più immediata, anche perché i siti colpiti avevano un crollo immediato e sostanziale del traffico organico il giorno stesso dell'annuncio del rilascio dell'update.

Ora la situazione è un po' cambiata, anche perché Google ha deciso di non annunciare più ufficialmente il rilascio degli aggiornamenti, che sono tanti e continui.

Cura sempre al massimo la qualità dei contenuti del tuo sito web ed i link presenti al suo interno anche perché prevenire è meglio che curare.

Uscire da una penalizzazione Panda, infatti, è possibile ma complicato ed è assolutamente meglio fare un lavoro cautelativo a priori onde evitare di essere penalizzati.

Risolvere Duplicazioni Interne con la SEO: Noindex, Canonical, Htaccess

Le duplicazioni interne, spesso, si verificano quando si creano siti attraverso i CMS o quando si ha a che fare con siti di dimensioni molto grandi (come può essere, ad esempio, uno shop online).

In particolar modo, le URL duplicate non solo rappresentano un problema per il posizionamento, ma non sono sicuramente per l'utente una bella esperienza.

Ogni sito internet ha un suo crawl budget, il che significa che ha un suo potenziale di spidering del bot per arrivare in profondità.

Se il sito è autorevole e, soprattutto, presenta una buona struttura, per il bot è più facile andare a rintracciare tutte le URL e scansionarle.

In caso contrario si verifica qualcosa che è molto frequente per gli shop online, ovvero l'impossibilità di far indicizzare tutte le pagine a Google.

A questo, inoltre, si aggiunge che per Google trovare le pagine più interne e erarchicamente inferiori è decisamente più difficoltoso, e a questo problema si ovvia solitamente con il caricamento della Sitemap XML.

Senza contare che le URL duplicate portano anche alla dispersione del pagerank verso risorse non canoniche.

Con il termine pagina canonica, infatti, si fa riferimento all'URL principale (e più importante) da cui l'utente accede ad una risorsa. Se esistono più URL per accedere allo stesso contenuto, allora queste altre secondarie vengono considerate come non canoniche.

Una situazione in cui la stessa risorsa è accessibile da centinaia di URL diverse altro non fa che sperperare il crawl budget e il page rank.

Questo porta, dunque, ad un calo del posizionamento SEO su Google e ad una cannibalizzazione per le keywords tra le pagine duplicate.

Le principali tipologie di duplicazione sono:

  • HTTP – HTTPS;
  • www – non www;
  • URL da filtri (in questo caso facciamo riferimento a quelli shop online che consentono di filtrare la ricerca in base al prezzo, al colore o ad altre caratteristiche. Questi filtri generano URL parametrizzate, dando luogo ad una duplicazione sistematica delle pagine);
  • Contenuti in syndacation;
  • URL con o senza slash finale.

Bene. Ti starai chiedendo: Ma come faccio a prevenire o a risolvere tutti questi possibili problemi tecnici?

In fatto di duplicazione gli strumenti della SEO sono principalmente quattro:

  1. l'eliminazione della pagina;
  2. il rel=”canonical”;
  3. il meta noindex;
  4. il redirect 301.

La prima soluzione, cioè l'eliminazione della pagina, è il migliore se la pagina non ha nessuna utilità per il visitatore.

La seconda, ovvero il link rel=”canonical” ci aiuta ad indicare al motore di ricerca quella che deve essere la pagina canonica. Questo, dunque, va inserito nell'<head> della pagina in tutte quelle pagine non canoniche, e anche nella stessa pagina canonica.

È bene precisare, però, che stiamo comunque parlando di una sorta di consiglio che diamo al motore di ricerca, che non è detto che segua il suggerimento alla lettera.

È importante, però, cercare comunque di evitare di compiere gli errori più comuni, come inserire più link canonical in un'unica pagina, puntare il link canonico verso pagine che sono bloccate con il noindex, o puntare una categoria di prodotti ad una pagina prodotto, e così via.

Un'alternativa al link canonical è, invece, il meta noindex. Questo può sempre essere inserito nell'<head> o nelle intestazioni HTTS ed eviterà che la pagina venga indicizzata, evitando così che il bot percepisca la duplicazione.

Se il canonical è da usare per pagine utili per l'utente, con contenuti di valore ma molto simili ad altre, il noindex va bene per le pagine con contenuti scarsi.

Ultima alternativa è quella di usare il redirect 301, se non vogliamo che un'URL sia più accessibile al visitatore, e se al contempo ce n'è un'altra equivalente sul sito.

Non utilizzare, invece, il comando disallow in Htaccess per liberarti dalle pagine troppo simili: usare il disallow tramite l'htaccess non porta alcun beneficio, in quanto rischi che Google indicizzi comunque la risorsa, senza poter accedere al contenuto.

Contenuti Duplicati nei Blog: i Tag di WordPress e Joomla

Se hai un blog, ad esempio sui CMS WordPress e Joomla, fa attenzione alla struttura e alla scelta dei tag.

Infatti le pagine tag, così come le categorie, sono dei contenitori di altri contenuti, quindi sono spesso pagine che raccolgono contenuti non originali.

Quando usi i tag, fallo con cura e in maniera strategica, creando solo quelli che davvero servono, e che possano fornire utilità e valore per i tuoi lettori.

Strumenti e Tool SEO per Contenuti Duplicati: Evitarli e Scoprirli

Abbiamo affrontato insieme, dunque, le varie tipologie e possibilità di contenuti duplicati sul web che possono influire sul posizionamento su Google, e le strategie per evitare che il problema si verifichi.

Ma come evitare e scoprire eventuali contenuti duplicati?

Fortunatamente ci vengono in soccorso i tool e strumenti per contenuti duplicati che permettono di effettuare un controllo approfondito.

Qui ti indico tool e strumenti che ritengo personalmente i più validi.

Si tratta di tool gratuiti e non, che ti consentono di scoprire ed evitare la duplicazione di contenuti, con tutti i problemi che essi portano al tuo sito web.

Ecco gli strumenti:

Siteliner

Questo tool è completamente gratutito. Permette di individuare i contenuti duplicati all'interno del tuo sito web e ha anche molte altri utili funzioni.

Basta inserire l'URL del tuo sito web.

Copyscape

Copyscape si concentra più sui casi di duplicazione esterna.

Basta inserire l'URL di proprio interesse e Copyscape mostra le eventuali duplicazioni.

Ne esiste una versione a pagamento che consente, invece, di inserire il testo che si desidera verificare.

Duplicate Content Checker di SEO Review Tools

Questo tool è molto utile sia per verificare la presenza di duplicazioni interne, che per verificare quella di duplicazioni esterne.

È sufficiente inserire l'URL per ottenere gratuitamente l'analisi.

DupliChecker

La grande potenzialità di questo tool sta nella possibilità di inserire il testo di proprio interesse manualmente o tramite il caricamento da file.

Il tool verifica non solo l'eventuale duplicazione ma anche la percentuale in cui questo è stato duplicato.

Plagiarisma

Questo strumento è disponibile in una versione gratuita, per cui è necessaria la registrazione, e in una versione a pagamento (che dà accesso a funzionalità maggiori).

Si può inserire sia il testo da controllare che l'URL della pagina.

Plagium

Come lo strumento precedente, anche Plagium ha due versioni: una gratuita e una a pagamento.

La prima offre un numero limitato di ricerche al mese e permette di inserire solo il testo che si desidera controllare.

La seconda, invece, permette di ottenere un numero maggiore di risultati grazie ad una ricerca più approfondita, nonché di controllare direttamente i documenti in word o pdf.

Plag Scan

Questo strumento è a pagamento e offre vari piani che partono da un costo di circa 5 dollari per ricerche su 5000 parole. Permette di individuare i contenuti duplicati e di rintracciarli.

Inoltre consente di confrontare le varie pagine tra di loro.

In linea di massima ti consiglio di effettuare la tua ricerca utilizzando più di uno di questi strumenti, così da ottenere un risultato più affidabile e più completo.

Come Risolvere Duplicazioni Esterne

Nei paragrafi precedenti ti ho già spiegato quanto sia importante personalizzare i contenuti il più possibile, rendendoli unici ed originali.

Questo, infatti, rappresenterà un valore aggiunto per l'utente, ma anche per Google, che così migliorerà il tuo posizionamento.

Quello che intendo con personalizzazione è la realizzazione di un testo che rispecchi il tono e lo stile dell'azienda, e che illustri al meglio i vari prodotti.

Non devi riscrivere con parole diverse ciò che già esiste ma devi, invece, creare il tuo contenuto da zero.

Questo richiede un dispendio di tempo maggiore, ma corrisponde anche ad una maggiore resa.

Ma come dobbiamo comportarci, invece, se sono altri siti ad aver copiato i nostri contenuti?

Da quando inserisci il tuo testo online, c'è da valutare la possibilità che questo possa essere copiato su altri siti.

A volte Google riesce ad individuare chi ha copiato da chi, ma purtroppo questo non sempre accade e può portare ad una perdita di posizionamento da parte tua e ad un miglioramento del posizionamento di altri siti che, anche se ti hanno copiato, posseggono maggiore autorevolezza (purtroppo, ahimè, è così!).

Cosa fare in questo caso?

In una situazione del genere ti si pongono davanti due possibili opzioni:

  • La prima è quella di contattare il webmaster del sito web in questione, informandolo del fatto che ti sei accorto della duplicazione ed invitandolo a rimuovere immediatamente il contenuto;
  • la seconda, che solitamente interviene quando la prima opzione si è, purtroppo, rivelata inutile, è quella di segnalare il tutto tramite lo strumento “Rimozione di contenuti da Google”. Il motore di ricerca, una volta ricevuta la segnalazione, verificherà l'autenticità della segnalazione e provvederà a rimuovere il contenuto dal suo indice web.

Ma cosa faccio, invece, se voglio concedere un mio testo in licenza a terzi?

La risposta in questo caso è molto semplice: basta che i siti che vogliono utilizzare il tuo testo utilizzino il canonical verso il tuo contenuto, oppure mettano il tag noindex.

Questo farà sì che le pagine in questione non vengano percepite come duplicate, evitandoti le penalizzazioni di cui abbiamo ampiamente già discusso.

Tramite il canonical, otterrai anche link juice dalla pagina che ripropone il tuo contenuto.

Attento però: si tratta comunque di una pratica che sconsiglio, in quanto non è detto che Google rispetti il canonical.

Chiarimenti sui Contenuti Duplicati SEO sul Web

Nel 2016 Google ha diffuso un comunicato per cui non esisterebbero penalizzazioni dirette per contenuti duplicati, ma, se si possiede un contenuto di questo genere, ne consegue una sorta di prezzo da pagare in termini di posizionamento.

Devi sapere che per Google esistono due tipi di penalizzazione: la penalizzazione manuale e quella algoritmica.

La differenza principale tra le due sta nel fatto che per la penalità manuale si riceve un messaggio direttamente nella propria Google Search Console, dove il motore di ricerca informa della penalizzazione e della ragione per cui è stata messa in atto (con relativa possibilità di agire per trovare un rimedio).

Nel caso, invece, di penalizzazione algoritmica, come ti ho anche già accennato nei paragrafi precedenti, sei tu a dover capire quale penalizzazione ti ha colpito, cercando una soluzione.

Voglio ricapitolare, con te, dunque, tutte le operazioni da mettere in pratica per evitare che si verifichino duplicazioni interne o esterne:

  • la struttura URL deve essere assolutamente coerente con il contenuto della tua pagina;
  • solitamente è consigliabile utilizzare domini di primo livello per i siti multilingua;
  • verifica periodicamente che i contenuti del tuo sito web non siano stati copiati e se li concedi ad altri siti web verifica che vi abbiano inserito canonical o noindex;
  • indica alla Search Console se preferisci per l'indicizzazione la versione con o senza www;
  • non pubblicare pagine senza contenuti (o se lo fai assicurati che non siano indicizzate);
  • imposta correttamente il CMS del tuo sito web per evitare duplicazioni interne involontarie;
  • scrivi testi sempre originali e riduci al minimo i contenuti duplicati all'interno del tuo sito web.

Spero, dunque, che questa panoramica ti abbia fatto comprendere in modo sufficientemente esaustivo l'argomento dei contenuti duplicati sul web, fornendo soluzioni agli eventuali problemi che hai rilevato sul tuo sito web.

Rosilda Sergi

About Rosilda Sergi

Mi chiamo Rosilda Sergi. Dal 2009 è iniziata la mia scalata verso la conoscenza della scrittura digitale e di tutte le sue sfumature. Nel corso degli anni, ho avuto modo di trasformare la mia passione per la scrittura e la comunicazione in qualcosa di più concreto, orientandomi verso l'espansione delle mie skills e focalizzando la mia attenzione su aspetti come l'ottimizzazione SEO e la comunicazione persuasiva.

Leave a Reply