Kategorien
SEO

Duplicate-Content-Check: Wer ist hier das Original?

Das WWW ist gigantisch und wächst jeden Tag um zahlreiche Seiten. Darunter auch viele Duplikate. Zeitungsartikel und Pressemeldungen, die unter mehreren Domains veröffentlicht werden, Produkte, die in mehreren Online-Shops zu kaufen sind, oder auch Backups, Testserver, Parameter-URLs, die versehentlich in den Google-Index gelangen, können Duplicate Content darstellen. Aber wie entscheidet Google, welches Dokument das Original ist und ist das überhaupt wichtig?

Was ist Duplicate Content?

Unter Duplicate Content (DC) wird ein und derselbe Inhalt bzw. stark ähnlich Inhalte unter verschiedenen URLs verstanden. Dabei ist unerheblich, ob das Duplikat unter derselben Domain oder einer anderen Domain veröffentlicht wird. Erhält Google zwei identische Inhalte, wird die Suchmaschine diese nur beide ranken, wenn die Suchanfrage sehr spezifisch ist und die Nutzer:innen nach einer genauen Artikelnummer oder einem spezifischen Artikelnamen suchen. 

Ist die Suchanfrage allgemeiner, ist es Googles Ziel den Nutzer:innen Diversität anzubieten, das heißt bei doppelten Inhalten wird sich die Suchmaschine auf eine der URLs, die diesen Inhalt anbieten, beschränken. Dabei wird Google eine URL als Original definieren und die anderen URLs als Duplikat. Die Duplikate ranken in diesem Fall gar nicht oder nur auf hinteren Rankingpositionen. 

In welchen Situationen entsteht Duplicate Content?

Doppelte Inhalte können durch verschiedenste Umstände zustande kommen. Die gängigsten haben wir hier einmal aufgeführt: 

Duplicate Content durch Testserver und Seiten, die versehentlich in den Index gelangt sind

Viele Websites werden stetig verändert. Um neue Features zu testen, haben viele Webmaster Testserver eingerichtet, z. B. unter einer Subdomain test.beispieldomain.de. Geraten Seiten des Testservers in den Google-Index, produzieren sie Duplicate Content.

Duplicate Content durch fehlende oder fehlerhafte hreflang-Tags

Domains, die auf verschiedene Länder ausgerichtet sind und keine oder fehlerhafte hreflang-Tags für die verschiedenen Sprachversionen enthalten, sind prädestiniert für das Phänomen Duplicate Content. 

Hier kommt DC dann zustande, wenn es für eine Sprache mehrere Seiten gibt und deutschsprachige Nutzer:innen jeweils eine andere URL erhalten sollen, je nachdem in welchem Land (im Beispiel: Deutschland, Österreich, Schweiz) sich die Nutzer:innen befinden. 

  • beispieldomain.de/de/seite-fuer-nutzer-aus-deutschland/
  • beispieldomain.de/at/seite-fuer-nutzer-aus-oesterreich/
  • beispieldomain.de/ch/seite-fuer-nutzer-aus-schweiz/

Alle drei URLs enthalten die gleichen oder nahezu die gleichen Inhalte. Damit Google erkennt, welche URL für welche Nutzer:innen bestimmt ist, sollten hreflang-Tags verwendet werden. 

Sind diese jedoch fehlerhaft oder fehlen gänzlich, können die drei oben genannten URLs für Google Duplicate Content darstellen. Dann kann es passieren, dass die Suchmaschine in Deutschland die AT-Seite oder die CH-Seite rankt, weil die DE-Seite als Duplikat bestimmt wird. 

Duplicate Content durch Parameter

Viele Websites (insbesondere Online-Shops) nutzen Parameter-URLs, um ihre Nutzer:innen zum Beispiel die Produkte nach Farbe oder Größe filtern zu lassen. 

Die entstehenden Seiten, wie z. B. https://beispieldomain.de/beispiel-seite?filter sind wichtig, sie enthalten allerdings häufig bis auf die neu sortierten Produkte dieselben Inhalte wie die Seiten ohne Parameter. Ist dies der Fall und die Parameter-Seiten enthalten den gleichen Title, die gleiche H1 und die gleichen textlichen Inhalte wie die Seite ohne Parameter, kann dies zu Duplicate Content führen.  

Externer Duplicate Content

Duplicate Content mit anderen Domains entsteht entweder, wenn Inhalte wissentlich oder unwissentlich kopiert und damit geklaut werden oder wenn Inhalte im Einvernehmen auf verschiedenen Websites veröffentlicht werden.  

Hinter Inhalten, die wissentlich kopiert werden, stehen häufig Spam-Seiten, die über eure Inhalte Traffic für sich selbst generieren. Manch einer kopiert aber auch unwissentlich eure Inhalte. Dies passiert häufig bei Partner-Websites, bei denen dann eine Website denkt, sie könne die Inhalte der anderen übernehmen, weil eine Partnerschaft besteht.

Bei Inhalten, die im Einvernehmen auf verschiedenen Websites veröffentlicht werden, sind die gängigsten Beispiele Produktbeschreibungen, die Hersteller:innen an mehrere Händler:innen zur Nutzung herausgeben oder z. B. Zeitungsartikel, wie dpa-Artikel, die auf mehreren Zeitungs-Domains veröffentlicht werden dürfen. 

Duplicate-Content-Check: Wie kann man Websites auf Duplicate Content prüfen?

Duplicate Content lässt sich über verschiedene Wege aufspüren. Für externen DC bestehen jedoch etwas weniger Möglichkeiten:

Externen Duplicate Content finden

Wenn ihr prüfen wollt, ob andere, externe Seiten eure Inhalte kopieren, könnt ihr das über die Google-Suche herausfinden. Nehmt dazu eine Textpassage eurer Website und gebt diese mit Anführungszeichen in die Google Suche ein.  

duplicate content finden ueber die google suche
Quelle: Google / Screenshot EOM

Die Websites, die anschließend aufgeführt werden, nutzen diese Textpassage. Schaut euch die Seiten an und prüft, wie viele Inhalte gleich sind. Handelt es sich nur um einen Satz, kann es Zufall sein, werden aber ganze Textpassagen und Absätze kopiert bzw. ist der gesamte Inhalt identisch, solltet ihr prüfen, ob ihr dagegen vorgehen wollt und könnt. 

Des Weiteren können euch Tools z. B. für die Plagiatsprüfung helfen, Plagiate und Duplicate Content zu finden. 

Internen Duplicate Content finden

Interne identische Inhalte lassen sich über die Wege, wie ihr externen Duplicate Content aufspüren könnt, ebenfalls finden. 

Internen Duplicate Content könnt ihr zusätzlich über weitere Indizien ermitteln, die ihr über einen Crawl eurer Website (z. B. mit dem Tool ScreamingFrog oder dem Sistrix Optimizer) finden könnt: 

  • Gleicher Title-Tag: Haben zwei oder mehrere Seiten den gleichen Title-Tag, kann das ein Indiz für DC sein. 
  • Gleiche Meta-Description: Auch eine gleiche Meta-Description kann auf doppelte Seiten hindeuten. 
  • Gleiche H1-Überschrift: Die H1-Überschrift sollte immer das Seitenthema beinhalten und möglichst individuell sein. Bestehen mehrere Seiten mit der gleichen H1-Überschrift, ist das ein Indiz für DC.
gleicher title tag sistrix optimizer
Quelle: Sistrix / Screenshot EOM
gleiche meta description sistrix optimizer
Quelle: Sistrix / Screenshot EOM
gleiche ueberschrift sistrix optimizer
Quelle: Sistrix / Screenshot EOM

Beachtet: Gleiche Title-Tags, Meta-Descriptions und Überschriften sind nur ein Indiz für gleiche Inhalte. Sind z. B. bereits Canonical-Tags für die Duplikate eingerichtet, werden euch die Tools weiterhin auf gleiche Title-Tags, Meta-Descriptions und Überschriften hinweisen, jedoch ist dann die Gefahr des Duplicate Contents gebannt. Übrigens: in diesem Artikel zeigen wir euch, wie ihr Meta-Tags optimieren könnt.

Lösungen: So geht ihr mit doppelten Inhalten um

Wenn ihr doppelte Inhalte gefunden habt, gibt es mehrere Lösungen, wie ihr damit umgehen könnt. Einige dieser Lösungen erläutern wir im Folgenden:

Doppelte Seiten löschen oder auf noindex setzen

Bestehen zwei identische Seiten, beispielsweise weil im CMS eine Seite unbeabsichtigt dupliziert wurde, habt ihr die Möglichkeit, einfach das Duplikat zu löschen. Die Seite wird dann in der Regel einen 404-Fehler ausgeben. Ihr solltet sie daher auf die Original-Seite per 301 weiterleiten, damit die Nutzer:innen, die die URL nochmal abrufen, die Inhalte des Originals finden können. 

Testserver o. Ä. sollten niemals in den Google-Index gelangen. Am besten schützt ihr euren Testserver mittels eines .htaccess-Schutzes. Dadurch kann Google nicht auf die Seiten eures Servers zugreifen und so auch nicht die Seiten des Testservers crawlen.  

Ist es nicht möglich, beim Testserver einen .htaccess-Schutz einzurichten oder doppelte interne Seiten zu löschen, kann auch auf den noindex-Tag zurückgegriffen werden. Mit diesem kann Google signalisiert werden, dass die doppelten Seiten nicht indexiert werden sollen. 

Canonical-Tags einrichten

Sollen doppelte Inhalte bestehen bleiben, weil es sich z. B. um Parameter-Seiten handelt, können Canonical-Tags verwendet werden. Über Canonical-Tags kann Google signalisiert werden, welche Seite das Original und welche Seite die Kopie ist. Die Kopie wird die Suchmaschine dann nicht in ihren Index aufnehmen. 

Beispiel: 

Original-URL: https://beispieldomain.de/seite

Parameter-URL (Duplikat): https://beispiel.de/seite?filter

Beide URLs erhalten einen Canonical-Tag. Die Original-URL https://beispieldomain.de/seite erhält einen Canonical-Tag auf sich selbst, um zu signalisieren, dass sie das Original ist: 

<link rel=“canonical” href=“https://beispieldomain.de/seite” />

Die Parameter-URL https://beispieldomain.de/seite?filter erhält den gleichen Canonical-Tag zur Original-URL und signalisiert dadurch, dass sie das Duplikat ist: 

<link rel=“canonical” href=“https://beispieldomain.de/seite” />

Tipp: Nutzt ihr Google Ads und schaltet bei Google Werbeanzeigen, entstehen auch immer Parameter-URLs. Diese sollten ebenfalls mit einem Canonical-Tag versehen werden. 

Was tun gegen externen Duplicate Content?

Beachtet: Auch im Internet gilt das Urheberrecht. Kopiert also jemand euer geistiges Eigentum von eurer Website und veröffentlicht dies auf seiner Website, verstößt er damit gegen das Urheberrecht. Dagegen könnt ihr sogar rechtlich vorgehen. 

Bei Spam-Seiten könnt ihr jedoch häufig gar nicht herausfinden, wer da eure Inhalte kopiert. Daher empfehlen wir Spam direkt an Google zu melden. Dafür könnt ihr bei Google den Antrag “Inhalte aus rechtlichen Gründen melden” stellen. 

Kopieren Partner:innen (Kund:innen, Geschäftspartner:innen etc.) Inhalte von euch, weist sie nett auf den Verstoß hin und findet gemeinsam eine Lösung. Ihr wollt ja nicht eure Kooperation aufs Spiel setzen. 

Bei Inhalten, die im Einvernehmen auf verschiedenen Websites veröffentlicht werden, wie Zeitungsartikel oder Produktbeschreibungen, könnt ihr keine rechtlichen Schritte einleiten, sondern nur selbst aktiv werden. Wenn ihr die Inhalte verändern dürft, dann tut das und schreibt die Produktbeschreibung selbst in euren Worten, ergänzt ggf. noch etwas und verleiht so eurer Webseite Individualität und Einzigartigkeit. 

Was ist der Unterschied zu Keyword-Kannibalismus?

Beim Thema Keyword-Kannibalisierung ranken mehrere eurer URLs zu einem Thema bzw. Keyword in den Suchergebnissen. Hier handelt es sich in der Regel nicht um Duplicate Content, sondern um ähnliche Inhalte bzw. mehrere Seiten, die ein und dasselbe Thema behandeln, aber nicht direkt gleiche Textbausteine verwenden bzw. identisch sind.

Mehr zum Thema Keyword-Kannibalisierung erfahrt ihr in unserem Ratgeber “Keyword-Kannibalismus aufspüren und beheben”.

Was sagt Google zu Duplicate Content?

Ende Januar 2021 hat John Mueller bei den Google Search Central SEO Office Hours erläutert, dass Duplicate Content kein negativer Rankingfaktor ist und die Suchmaschine auch mit Produktbeschreibungen, die auf mehreren Seiten identisch sind, umgehen kann.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Das heißt aber nicht, dass ihr identischen Content jetzt vernachlässigen könnt, sondern nur, dass im Algorithmus keine direkten negativen Effekte enthalten sind, wenn ihr von internem oder externem Duplicate Content betroffen seid. 

Individualisiert ihr zum Beispiel eure Produktbeschreibungen und bietet dadurch ggf. sogar mehr Inhalte zum Produkt als die Konkurrenz, wird Google das in der Regel positiv bewerten und eure Anstrengungen in einem besseren Ranking würdigen. 

Duplicate Content sollte also weiterhin, wenn möglich, vermieden werden. Erfahre dazu auch mehr in den Google Guidlines

Wenn ihr Hilfe bei der Behebung von Duplicate Content bei eurer Domain benötigt, könnt ihr uns natürlich auch über unser Kontaktformular ansprechen. Abonniert unseren Newsletter für weitere spannende Insights.

Suchmaschinenoptimierung

Ihr benötigt Hilfe bei der Behebung von Duplicate Content? Wir unterstützen euch dabei.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.