Das Crawlen einer Webseite ist zur Erkennung von Duplicate Content durch Google nicht immer erforderlich. Google verwendet Techniken, die mehrfach vorhandene Inhalte anhand bestimmter Muster erkennen können.
Duplicate Content, also Inhalte, die unter mehreren URLs verfügbar sind, ist sowohl aus Sicht der Suchmaschinen als auch aus Sicht ihrer Nutzer störend. Aus diesem Grund verfügen Suchmaschinen wie Google über Mechanismen, Duplicate Content zu erkennen und auszusortieren.
Interessant ist, dass dazu nicht immer das Crawlen der betreffenden URLs erforderlich ist. Wie Johannes Müller von Google in einem aktuellen Webmaster-Hangout erklärt, gibt es Möglichkeiten, Duplicate Content schon vor dem Crawlen zu erkennen. So könne zum Beispiel für eine Webseite festgestellt werden, ob die Inhalte einer Subdomain denjenigen eines bestimmten Verzeichnisses entsprechen.
Welche Signale Google bei der Erkennung von Duplicate Content genau verwendet, sagte Müller nicht. Denkbar ist jedoch eine Vielzahl von Signalen wie zum Beispiel Canonical-Links, hreflangs, die interne Verlinkung, Redirects oder Muster, wie sie auf Content Management Systemen wie WordPress vorkommen.
Titelbild: Copyright tumsasedgars - Fotolia.com