Zur Vermeidung von Duplicate Content ist die robots.txt laut Google ungeeignet. Ein 'Disallow' in der robots.txt ist sogar noch ungünstiger als ein 'Noindex' per Meta-Robots-Tag.
Duplicate Content auf einer Webseite vermeidet man am besten mit Hilfe von Canonical-Links. Wenn es Inhalte gibt, die unter mehreren URLs erreichbar sind, lässt sich per Canonical definieren, welche URL Google indexieren soll. Weitere Signale für bevorzugte URLs liefern Sitemaps, interne Links, Redirects oder auch hreflangs. Diese Signale sollten einheitlich sein und einander nicht widersprechen.
Allerdings werden vielfach auch andere Methoden zur Vermeidung von Duplicate Content genutzt, so zum Beispiel Meta-Robots-Tags und die robots.txt. Dass sich Meta-Robots-Tags nicht dazu eignen, hatte Google bereits mehrach erklärt, so zum Beispiel im April dieses Jahres.
Noch ungünstiger ist es allerdings, als Ersatz für Canonicals einzelne URLs per 'disallow' in der robots.txt zu sperren. Wie Johannes Müller jetzt auf Reddit erklärt hat, führt das nämlich dazu, dass Google, anders als bei 'noindex' nicht einmal erkennen kann, ob die Inhalte unter der betreffenden URL den Inhalten unter einer anderen URL entsprechen. Generell seien 'noindex' und 'disallow' keine klaren Signale für die Bevorzugung bestimmter URLs.
Müller wiederholte außerdem seinen Rat, Canonicals nicht mit anderen Signalen wie 'noindex' zu vermischen - vor allem dann nicht, wenn diese einander widersprechen. Man sollte sich laut Müller nicht darauf verlassen, dass automatische Skripte erkennen, was man gerne möchte. Man sollte vielmehr darauf achten, so genau wie möglich mitzuteilen, was die Skripte zu tun haben. Dies sie die Aufgabe der SEOs.
Titelbild © fotofabrika - Fotolia.com