Duplicate Content erklärt: Definition & Lösung für doppelte Inhalte

Du interessierst Dich für Duplicate Content im Kontext von SEO? Duplicate Content, oder doppelter Inhalt, ist ein häufiges Problem beim Erstellen von Webseiten.  In diesem Artikel werden wir die Definition von Duplicate Content erklären und die verschiedenen Arten von doppeltem Inhalt besprechen, die auftreten können. Außerdem werden wir Lösungen für das Problem besprechen und Tipps geben, wie Sie Duplicate Content auf Ihrer Website vermeiden können.

Was ist Duplicate Content?

Duplicate Content, zu Deutsch „Doppelter Inhalt“ oder „Duplizierter Content“, sind identische oder sehr ähnliche Inhalte, die über unterschiedliche URLs auffindbar sind. Man unterscheidet zwischen internem und externem Duplicate Content.

Duplicate Content bezieht sich auf Inhalte, die auf mehreren Seiten innerhalb einer Website oder sogar auf verschiedenen Websites vorkommen. Dies kann sowohl beabsichtigt als auch unbeabsichtigt geschehen und kann sich negativ auf die Suchmaschinenoptimierung (SEO) einer Website und ihre Sichtbarkeit bei Suchmaschinen wie Google und Bing auswirken.

Der Umgang, beziehungsweise die Vermeidung von Duplicate Content ist in der SEO-Theorie eines der Kernthemen. Die wichtigsten Suchmaschinen können Duplicate Content sehr gut erkennen und teilweise herausfiltern. Dennoch erschwert er das Crawling und das Scoring der Inhalte.

Die Vermeidung von Duplicate Content ist eine der Hauptaufgaben eines SEOs in der täglichen Arbeit.  Bei Texten unterscheidet man zwischen exakt doppelten Inhalten und nahezu doppelten bzw. ähnlichen Inhalten (Near Duplicate Content), Mehr dazu hier.

Laut John Mueller von Google sind folgende Fälle typische Arten von duplizierten Inhalten:

  • Exakt gleicher Inhalt oder große Teile gleichen Inhalts
  • Inhalte sind über mehrere Domains, Subdomains bzw. URLs erreichbar (www / non-www / http / https / index.html / ?utm= …)
  • Verschiedene mobilfreundliche URLs, druckerfreundliche URLs, CDN–Anbieter …
  • Tag-Seiten, Pressemitteilungen syndizierte Inhalte, identische Seitentitel und Descriptions …

Google sieht folgende Inhalte nicht als Duplicate Content an:

  • Übersetzungen
  • Unterschiedliche Seiten mit gleichem Seitentitel und gleicher Description
  • Content in Apps
  • Regionale Inhalte (manchmal)

Mehr dazu im Webmaster-Hangout-Video von John Mueller am Ende dieses Beitrags.

Was ist interner Duplicate Content?

Interner Duplicate Content sind sehr ähnliche oder identische Inhalte innerhalb einer Domain. Diese Art des Duplicate Contents wird oft durch die Art und Weise geschaffen, wie Content-Management-Affiliate-Systeme (Affiliate-Marketing) Inhalte strukturieren und auf URLs verteilen. Es hat also einen technischen Hintergrund. Besonders Shopsysteme, aber auch Redaktions-CMS, sind hier besonders anfällig.
Hier einige Beispiele für Duplicate-Content-Quellen:

  • Tag-Übersichtseiten
  • Filter-Übersichtsseiten
  • Interne Suchergebnisseiten
  • Kategorie-Seiten
  • Produkteinzelseiten, wenn sie unterschiedlichen Kategorien zugeordnet sind
  • Beiträge, wenn sie unterschiedlichen Kategorien zugeordnet sind
  • Pagination

Laut Google scheint diese Art von duplizierten Inhalten in der Regel kein großes Problem zu sein. Die Betonung liegt auf „scheint“. Wir sehen immer wieder, dass es sinnvoll ist, Google auch bei der Priorisierung von URLs zu unterstützen und interne doppelte Inhalte aktiv zu vermeiden.

Was ist externer Duplicate Content?

Externer Duplicate Content bedeutet sehr ähnliche oder identische Inhalte auf unterschiedlichen Domains. Diese Art von duplizierten Inhalten scheint für Google das größere Problem zu sein als interner Duplicate Content. Beispiele dafür sind:

  • Übernahme von Hersteller-Artikelbeschreibungen
  • Content-Diebstahl
  • Content-Scraping (mehr dazu hier)
  • Content-Einspielung über RSS-Feeds
  • Verbreitung von Pressemitteilungen
  • Nutzung von Inhalten über Affiliate-Seiten
Identische Inhalte auf unterschiedlichen TLDs (Top-Level-Domains) für z.B. verschiedene Länder scheint laut Matt Cutts kein Problem für Google zu sein.

Um Duplicate Content Probleme zu vermeiden, die durch identische Inhalte auf mobilen Landingpages enstehen können, rät Cutts dazu, dem Google Bot „Google Bot mobile“  die mobile Seite und dem Standard Google Bot die normale Seite auszuliefern.

Ein Sonderfall sind Inhalte wie z.B. Produktinformationen, die per RSS Feed eingespielt werden. Diese Inhalte sind keine eigenen Inhalte und tauchen i.d.R. auf einer Vielzahl anderer Seiten auf. Das reine Scrapen und Einspielen von fremden Inhalten bieten dem User keinen Mehrwert.

Wie identifiziert Google doppelte Inhalte?

Google identifziert und filtert doppelte Inhalte technisch gesehen an drei Punkten des Crawling- und Indexierungsprozesses:

  • Beim Scheduling
  • Bei der Indexierung
  • In den Suchergebnissen

Quelle: Crawling- und Indexierungs-Prozess / Google

Bestraft Google doppelte Inhalte mit Penalties?

In den meisten Fällen bestraft Google doppelte Inhalte nicht mit einem Penalty. Für internen Duplicate Content gibt es keine Penalties. Es gibt einige Fälle von externem Duplicate Content, bei denen Google Penalties ausspricht:

 

    Warum mag Google keinen Duplicate Content?

    Google möchte laut eigener Aussage vermeiden, duplizierte Inhalte mehrfach zu indexieren und in den Suchergebnissen anzuzeigen:

    Google ist sehr darum bemüht, Seiten mit unterschiedlichen Informationen zu indizieren und anzuzeigen.

    Dabei argumentiert Google mit dem Ziel, dem Nutzer Mehrwert bieten zu wollen.  Dieser Argumentation folgt Google immer gerne. Aber es gibt noch einige andere Gründe:

    URL-Bewertung pro Suchanfrage wird erschwert

    UnbenanntWenn Google mehrere URLs mit identischem Inhalt indexiert, macht man es dem Algorithmus nicht unbedingt einfacher, die thematische Nähe zum eingegebenen Suchbegriff herzustellen. Es kann also insbesondere bei internem Near Duplicate Content passieren, dass Keyword Kannibalisierung stattfindet. Google schreibt:

    „Falls Ihre Website beispielsweise eine „normale“ und eine Druckversion jedes Artikels enthält und keine dieser Versionen durch ein noindex-Meta-Tag blockiert wird, bedeutet diese Filterung, dass wir eine von ihnen für die Auflistung auswählen.“

    Dennoch glaube ich, dass es zu Problemen bei der eindeutigen Zuordnung kommen kann, wenn man Google nicht eindeutig präsentiert, welche der URLs nun die mehrwertigste für eine Suchanfrage ist. Abgesehen davon, dass Google eventuell die für den User schlechtere Seite auswählt, dadurch die User-Signale schlechter sind und dadurch wieder das Ranking leidet.

    Auch doppelte Seitentitel oder Snippets geben Google keine klaren Signale darüber, welche URL denn nun die relevanteste Seite bezogen auf einen bestimmten Suchbegriff ist.

    Google muss zeitliche Kapazitäten sparen

    Google muss Inhalte auf zigmillionen neune Domains und URLs neu entdecken und regelmäßig crawlen. Dafür stehen nur begrenzt zeitliche Kapazitäten zur Verfügung. Bietet man Google zu viel internen Duplicate Content an, kann es passieren, dass Google das Crawling vorzeitig abbricht und eigentlich wichtige URLs nicht indexiert werden.

    Google muss Speicherkapazitäten sparen

    Obwohl Google über riesige Speicherkapazitäten verfügt, sind diese begrenzt. Deshalb hat Google kein Interesse daran, Speicher für irrelevante Informationen wie doppelte Inhalte zu verschwenden.

    Weitere Gefahren von Duplicate Content

    I.d.R. wird Google keine Website bzw. URL wegen Duplicate Content bestrafen. Allerdings behält sich Google vor, Seiten mit Duplicate Content bei Manipulationsverdacht manuell abzustrafen:

    „In den seltenen Fällen, in denen wir annehmen müssen, dass duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor. Infolgedessen werden diese Websites unter Umständen in den Suchergebnissen niedriger eingestuft oder sogar aus dem Google-Index entfernt und damit nicht mehr in den Suchergebnissen angezeigt.“

    Dennoch sollt Duplicate Content sowohl extern als auch intern vermieden werden.

    Google und die Erkennung von Content-Urheberschaften

    Das ist eine Problematik, auf die wir im täglichen SEO-Geschäft immer wieder stoßen. Die Grundfrage lautet hierzu: „Wie erkennt Google, wer der Urheber von Content ist bzw. wie erkennt Google die Kopie(n) davon?“ Das Wahrscheinlichste ist, dass Google denjenigen als Urheber identifiziert, dessen Content als erstes indexiert wird.

    Das kann zu Problemen führen, gerade bei z.B. neueren Websites , die der Google-Bot seltener besucht, weil diese extern noch nicht so gut verlinkt sind. Wenn andere Websites den Content übernehmen und öfter vom Google Bot besucht werden, kann der Effekt sein, dass diese Websites als Orginalquelle gesehen werden und man selbst nur als Kopie. Die Folge: Man rankt für den eigenen Content hinter der eigentlichen Kopie. Ärgerlich!

    Deswegen sollte man vor dem Bereitstellen von Produktinformationen, z.B. für Preisvergleichsprotale per Produktfeed, darauf achten, dass die eigenen Inhalte bereits indexiert sind.

    Zudem sollte man tunlichst zusehen, die eigene Reichweite z.B. über Social Media und die eigene externe Verlinkung zu fördern, damit der Google Bot öfter zu Besuch kommt, um neue Inhalte zu indexieren. Und das funktioniert wieder über hochwertigen Content und/oder ein eigenes, ausgeprägtes Netzwerk.

    Lösungen für Duplicate Content-Probleme

    Oberste Prämisse sollte wie so oft sein, eigenen, einzigartigen Content schaffen, der die Suchintention des Nutzers befriedigt. Woran erkennt Google das? Einzigartigkeit erkennt Google über automatisierten Abgleich des Contents und der identischen Textanteile untereinander. Hier reicht es nicht, einzelne Sätze oder Wörter umzustellen. Ob der Content die Suchintention befriedigt, erkennt Google an Nutzersignalen wie Aufenthaltsdauer oder Absprungrate.

    Für Shops ist es daher wichtig, Seiten für einzelne Produkte zu schaffen, die z.B. eine eigene Meinung oder Erkenntnisse enthalten, die über das hinausgehen, was andere Produktbeschreibungen beinhalten.

    Pauschal zu sagen, dass kopierter, gescrapter oder eingespielter Content schlecht ist, wäre nicht richtig. Man kann dem User durch eine Sammlung an Content aus unterschiedlichen Quellen durchaus einen Mehrwert bieten, indem man diesen schön aufbereitet und um eigene Ansichten und Informationen ergänzt. Dabei würde ich auch nicht pauschal sagen, dass man hier auf mindestens x% einzigartigen Inhalt achten sollte. Dabei hilft es immer, den Blickwinkel des Users einzunehmen und sich zu fragen ob der angebotene Inhalt bei der Lösung eines Problems oder der Beantwortung einer Frage hilft – und zwar besser als bereits existierende Seiten.

    Auch pauschal zu sagen, dass Tag-Seiten oder interne Suchergebnisseiten Duplicate Content sind, ist falsch. Wenn man es schafft, diese mit uniquem Content anzureichern, können diese insbesonders sehr gute Rankings erzielen. T3n macht es vor:

    Zur Verwendung von Zitaten und eventuell daraus entstehenden DC-Problemen hat Matt Cutts folgendes gesagt:

    Doch wie löst man Duplicate-Content-Probleme technischer Natur, die durch das CMS ausgelöst werden? Um diese zu erkennen,helfen tweilweise  kostenlose Crawler wie z.B. der Screaming SEO Frog oder kostenpflichtige Tools wie MOZOnpage.orgSistrix oder Searchmetrics, die eigene Onpage Crawler anbieten. Analysiert man die Ergebnisse, muss man Muster aufdecken, warum und wie das CMS DC erzeugt. Als nächstes muss man beurteilen, ob diese Seiten für den Nutzer eine Hilfe sind, also bestehen bleiben müssen oder nicht notwendig sind. Demnach ergeben sich zwei Lösungsansätze.

    Nützlich für den User > Canonical Tag

    Mit Hilfe des Canonical Tags referenziert man für  Google Inhalte einer URL auf die Haupt- oder Ursprungsseite des Contents, während die URLs für den User weiterhin sichtbar und nutzbar bleiben. Google indexieer Mehr dazu hier bei Google

    Nicht nützlich für den User > 301 Weiterleitung

    301 Weiterleitungen sorgen dafür, dass Nutzer zur eigentlich wichtigen Seite weitergeleitet werden. Dabei bekommt der User den Inhalt der weitergeleiteten URL nicht mehr angezeigt. Dies kann über die htaccess oder Serverseitige Rewrite regeln eingerichtet werden. Mehr dazu bei Google.

    Bei beiden Lösungen werden für das Google-Ranking wichtige Signale wie z.B. Page-Rank ohne Verlust weitergegeben.

    Eine weitere Möglichkeit, die Indexierung von URLs mit doppelten Inhalten auszuschließen, ist die Nutzung der Funktion „Ausschluss von URL-Parametern“ über die Google Search Console und der Einsatz des Meta Robot Tags noindex.

    Ausschließen von Parameter-URLs über die Google Search Console

    Über die Google Search Console kann man Google mitteilen, welche URLs mit bestimmten Parametern nicht in den Index aufgenommen werden sollen. Insbesondere wenn schon viele unerwünschte URLs im Index sind, sollte man diese Funktion nutzen – aber immer nur in Verbindung mit den bereits beschriebenen Lösungen.

    Eine weitere Möglichkeit ist , das Meta Robots Tag „noindex“ zu nutzen, um Google mitzuteilen, dass eine bestimmte URL nicht zu indexiert weden soll.

    Googles Tipps für die Vermeidung von doppelten Inhalten

    Folgend Tipps und Lösungen stellt John Mueller in dem unten aufgeführten Video vor:

    • Erstelle thematisch eindeutige Seiten, die für sich alleine stehen
    • Achte auf Konsistenz auch bei der internen Verlinkung
    • Nutze noindex für sonst unlösbare Probleme mit doppelten Inhalten
    • Bestimmte Arten von Duplicate Content sind normal
    • Nutze nur eine URL pro Inhalt
    • Vermeide unnötige URL-Variationen
    • Nutze die Einstellungen in der Search Console (Bevorzugte Domain, URL-Parameter-Handling … )
    • Nutze Geotargeting und hreflang, wenn angebracht
    • Syndiziere Inhalte sorgfältig
    • Minimieren von wiederkehrenden Textbausteinen
    • Vermeidung der Indexierung von Platzhalter-Seiten bzw. Seiten ohne Inhalt
    • Minimieren von ähnlichen Inhalten durch z.B. Zusammenführung auf einer URL

    Mehr dazu in der Google Hilfe

    Nicht empfehlenswert Lösungen für die Beseitigung von Duplicate Content

    Google empfiehlt, folgende Lösungen nicht für die Beseitigung von Duplicate Content zu nutzen:

    • Robots.txt: Google empfiehlt ausdrücklich nicht die Nutzung der robots.txt um doppelte Inhalte auszuschließen, da dadurch Google selbst keine Möglichkeit bekommt, sich einen Überblick zu verschaffen.
    • Schreibe Content nicht einfach nur um, um doppelte Inhalte zu vermeiden. Das ist spammy!
    • Nutze nicht das URL-Removal-Tool. Das führt nur dazu, dass die URL nicht mehr in den Suchergebnissen auftaucht.

    Duplicate Content muss in den Griff bekommen werden

    Obwohl Google gerne beteuert, dass Duplicate Content in den meisten Fällen kein Grund für eine Abstrafung ist, ist generell zu sagen, dass das Handling von Duplicate Content Problemen ein sehr wichtiger Bestandteil der SEO-Arbeit ist, um es Google einfacher zu machen, Inhalte richtig zu bewerten bzw. die gewünschten Signale zu geben. Dann kann es auch nicht zu Missverständnissen zwischen uns und dem Algorithmus kommen und die Harmonie ist gewahrt. 

    Häufige Fragen zum Thema Duplicate Content

    Hier werde ich auf Fragen von Lesern zum Thema Duplicate Content eingehen. Dieser Teil wird stetig aktualisiert.

    Ist Duplicate Content wirklich schlecht für SEO?

    Doppelte Inhalte verwirren Google und zwingen Suchmaschinen zu entscheiden, welche der identischen oder ähnlichen Inhalte sie in den Suchergebnissen platzieren sollen. Als SEO und Webmaster sollte man deshalb auch bei Inhalten auf Konsistenz achten.

    Wie prüft man ob Duplicate Content vorliegt?

    Nutze Google zur Suche nach Duplicate Content. Eine schnelle Möglichkeit, um zu überprüfen, ob eine Seite als Duplikat angesehen werden kann, besteht darin, einige Wörter vom Anfang eines Satzes oder einen kompletten Satz zu kopieren und sie dann mit Anführungszeichen in Google einzufügen. Dies ist die von Google empfohlene Methode zur Überprüfung von Duplicate Content.

    Wie kann man Duplicate Content verhindern?

    In den meisten Fällen ist das rel=canonical-Tag der beste Weg, um Duplicate Content zu verhindern. Wenn es nicht gewünscht ist, dass das Duplikat des Inhalts erhalten bleibt sollte man eine 301-Weiterleitung nutzen.

    Weitere Informationsquellen zum Thema Duplicate Content

    In dem folgenden Video geht John Mueller von Google in einer Präsentation und auf Fragen von Webmastern auf das Thema doppelte Inhalte ein: