Zur Indexierung wandelt Google verschiedene Dokumenttypen wie PDFs in HTML um. Das geschieht allerdings nur für Dokumente, die nicht zu groß sind.
Google kann zwar PDF-Dokumente indexieren, aber wandelt auch viele dieser Dokumente in HTML um. Das hat für die Nutzer den Vorteil, dass sich die Dokumente einfacher abrufen lassen und meist weniger groß sind als die Originale im PDF-Format.
In einem aktuellen Tweet bestätigte Johannes Müller, dass Google PDFs und ähnliche Dateitypen zum Zwecke der Indexierung in HTML umwandelt:
Für manche Suchergebnisse, die sich auf PDF-Dokumente beziehen, bietet Google die Möglichkeit, auf die jeweilige HTML-Version zuzugreifen.
Google indexiert PDF-Dokumente seit 2001. Grundsätzlich können die meisten Texte aus PDF-Dokumenten von Google erfasst werden, solange die Dokumente nicht passwortgeschützt und / oder verschlüsselt sind. Als Faustregel gilt: Wenn ein Text aus einem PDF-Dokument per Copy und Paste extrahiert werden kann, dann ist Google auch in der Lage, diesen Text zu indexieren. Bilder aus PDF-Dokumenten können dagegen von Google noch nicht indexiert werden.
Grundätzlich können auch PDF-Dokumente gute Rankings in den Google-Ergebnissen erzielen, aber das gilt vor allem für Suchanfragen, die auf PDF-Dokumente ausgerichtet sind, wie zum Beispiel nach Bedienungsanleitungen oder wissenschaftlichen Themen.
Wenn ein PDF-Dokument zu groß ist, wandelt Google es nicht in HTML um. Daher sollte man sich überlegen, Inhalte großer PDF-Dokumente selbst in HTML zu konvertieren.