Bei der Reduzierung von Duplicate Content insbesondere auf großen Websites sollte man laut Google nach Mustern suchen, um die Zahl der URLs um einen spürbaren Faktor zu senken. Die Betrachung einzelner URLs bringt dagegen wenig.
Gerade auf großen Websites mit vielen Tausend oder sogar Millionen von URLs kann die Verringerung von Duplicate Content viele Vorteile bringen. So kann das Crawl-Budget geschont werden, und es lässt sich verhindern, dass zu viele URLs um dieselben Keywords miteinander in Konkurrenz stehen. Allerdings sollte man versuchen, Duplicate Content im großen Stil zu reduzieren. Es bringt wenig, nur einzelne URLs zu betrachten.
In einem Thread auf Reddit schrieb John Müller von Google, bei Crawling-Problemen sollte man prüfen, wie sich Duplicate Content um den Faktor zehn verringern lasse. Gebe es zum Beispiel 100.000 Produkte, von denen jedes Produkt über 50 verschiedene URLs erreichbar sei, dann könne eine Reduzierung um den Faktor zehn die Zahl der URLs von fünf Millionen auf 500.000 sinken lassen. Das sei eine klar technische Angelegenheit.
Zudem schrieb Müller, dass die Struktur der URLs von Blogposts keine Unterschiede für das Crawlen, das Indexieren und die Rankings mache:
"Yeah, this is fine. Even with 15M pages, how you structure the URLs of your blog posts is not going to change anything for crawling, indexing, or ranking. If you see issues with crawling (and if you have to search for them, they probably aren't significant), you should try to find things where you can reduce duplication by a factor of 10x, not individual posts here and there. Like if you have 100k products and they all have 50 URLs each, changing that from 5M URLs to 500k URLs (5 URLs each) would be worth the effort -- and that's usually also a clear technical thing, not something which depends on handwavy opinions (from Googlers or anyone really)."
Um Duplicate Content effektiv zu reduzieren, geht es also darum, Muster zu finden, die für die mehrfachen URLs verantwortlich sind. Das können zum Beispiel URL-Parameter sein, die sich nicht auf die Darstellung der Inhalte auswirken, wie zum Beispiel Session- oder Tracking-IDs. Auch unterschiedliche Groß- und Kleinschreibung in URLs kann zu Duplicate Content führen.
Danke an Search Engine Roundtable
SEO-Newsletter bestellen