PDF-Dateien verursachen laut Google keinen Duplicate Content, auch dann nicht, wenn sie Inhalte wiedergeben, die es bereits als Webseite gibt.
Auf vielen Websites findet man Inhalte sowohl als normale HTML-Seiten als auch in Form von PDF-Dateien. Das ist zum Beispiel häufig auf Unternehmenswebsites zu beobachten, wenn Datenblätter zu Produkten als PDF bereitgestellt werden und die Produkte jeweils eigene Landing Pages besitzen.
Im Grunde müsste es sich dabei doch um Duplicate Content handeln. Doch Google sieht das offenbar anders. John Müller erklärte in den Google Search Central SEO Office Hours vom 18.2., Google betrachte solche Konstellationen nicht als Duplicate Content. Es handele sich um unterschiedliche Inhalte: Das eine sei eine HTML-Seite, das andere eine PDF-Datei. Das gelte selbst dann, wenn die primären Inhalte an sich gleich seien, denn die Umgebung sei jeweils anders.
Es könne aber passieren, dass beide Varianten zur gleichen Zeit in der Suche erscheinen. Ob man das wolle oder nicht, sei eine strategische Frage, die man für sich selbst beantworten müsse. Aus SEO-Sicht sei das kein Nachteil, aber man müsse sich eben fragen, ob die Nutzerinnen und Nutzer eher ein PDF oder eine HTML-Seite in den Suchergebnisseiten sehen sollen.
Müller sagte außerdem, HTML- und PDF-Version können dennoch in der Suche miteinander konkurrieren. Normalerweise sei ein PDF aber weniger sichtbar, weil es meist nur von einer Seite aus verlinkt sei und damit weniger Gewicht erhalte. Dennoch können PDFs für die gleichen Suchanfragen erscheinen wie HTML-Dateien und miteinander in Konkurrenz stehen.
Möchte man dies vermeiden, kann man entweder einen Canonical-Link vom PDF auf die HTML-Seite oder das PDF-Dokument auf "noindex" setzen. Beides kann im HTTP-Header des PDF-Dokuments geschehen.
Titelbild: Copyright paisan191 - Fotolia.com