Google hat detaillierte Einblicke in die Funktionsweise von Caffeine gegeben. Das System ist für die Indexierung von Inhalten verantwortlich. Interessant ist zum Beispiel, dass Google alle Inhalte vor dem Indexieren in HTML umwandelt und das HTML anschließend normalisiert.
Das Aufnehmen neuer Webseiten und Dokumente durch Google in die Suchergebnisse ist wesentlich komplexer, als es nach außen den Anschein hat. Vor allem das Indexieren besteht aus einer Reihe von Verarbeitungsprozessen, die durchlaufen werden müssen, bevor eine Seite in den Suchergebnissen erscheint.
Verantwortlich für das Indexieren ist Caffeine. So lautet die Bezeichnung für das System, welches die verschiedenen Verarbeitungsschritte bündelt. Wie Gary Illyes in einer neuen Ausgabe von "Search Off the Record" erklärt, ist Caffeine das, was die "Google Magic" vollbringt.
Vereinfacht gesagt finden in Caffeine die folgenden Schritte statt:
- Ingestion: Dabei handelt es sich um das Auslesen von Daten, die der Googlebot gesammelt hat
- Conversion: Dazu gehören zum Beispiel die Normalisierung des HTML-Codes oder bei Bedarf das Umwandeln anderer Datenformate in HTML
- Collapsing: Zu diesem Schritt zählt beispielsweise die Prüfung von Fehlerseiten auf Validität.
Caffeine löst Daten aus den Protocol Buffers des Googlebots aus. Ein Protocoll Buffer ist ein Mechanismus, mit dem strukturierte Daten wie XML serialisiert werden können. Auch verschiedene Signale, die später zum Ranking benötigt werden, liest Caffeine aus.
Nach diesem mit "Ingestion" bezeichneten Schritt folgt die Conversion. Dabei wird zunächst das HTML normalisiert, wobei zum Beispiel Fehler bereinigt werden. Google versucht, auch Seiten mit fehlerhaftem HTML zu verstehen, und nutzt dazu einen HTML Lexer, welcher den Code in kleinere Einheiten, sogenannte Tokens, zerlegt.
Verschiedene Überschriften wie H1, H2 oder H3 werden auf ihr Styling hin überprüft, um ihre Bedeutung auf der Seite zu interpretieren. Das bedeutet: Größere Überschriften erhalten tendenziell ein höheres Gewicht gegenüber Überschriften mit einer kleineren Darstellung.
PDF-Dateien werden von Caffeine zu HTML normalisiert. Das gilt auch für Worddokumente oder Tabellenkalkulationen. Sogar Lotus-Dateien kann Google zu HTML umwandeln. Weil es sich dabei um binäre Formate handelt, nutzt Google dazu spezielle Konverter, zum Beispiel von Adobe für PDF-Dateien.
Im nächsten Schritt werden Meta Tags betrachtet. Sehr wichtig ist dabei das Tag Meta name="robots". Wenn eine Seite auf "noindex" gesetzt ist, wird die Verarbeitung abgebrochen oder die Seite zumindest nicht indexiert.
Wichtig ist ein Hinweis: Findet Google im <head> des HTML-Codes Tags, die dort nicht hingehören, wie <div>, <span> oder ein Iframe, dann schließt Caffeine den <head> direkt vor dem ersten dieser Tags, auf das es stößt. Das kann dazu führen, dass wichtige Informationen aus dem <head> von Google nicht berücksichtigt werden.
Wie Google Fehlerseiten identifiziert
Eng in Verbindung mit dem Converter steht der Collapser. Er kümmert sich um die Handhabung von Fehlerseiten. Viele Fehlerseiten sind in sich fehlerhaft. So senden häufig 404-Fehlerseiten den Status 200, so dass sogenannte Soft-404-Seiten entstehen. Der Collapser nimmt einen Abgleich gefundener Seiten gegen einen Korpus vieler exemplarischer Fehlerseiten vor und prüft auf diese Weise, ob es sich bei einer gefundenen Seite um eine Fehlerseite handelt.
Aufgrund dieses Vorgehens kann es passieren, dass Google Beiträge, die sich mit Fehlerseiten beschäftigen, nicht indexiert, weil darin Phrasen oder Keywords vorkommen, die Google darauf schließen lassen, dass es sich beim Beitrag selbst um eine Fehlerseite handelt.
Caffeine verstehen
Diese Beschreibung lässt erahnen, wie komplex die Indexierung bei Google ist. Dabei ist die Darstellung noch immer stark vereinfacht und lässt viele Details aus. Doch sie ist hilfreich, weil sie dazu beiträgt, Googles Verarbeitung von Webseiten besser zu verstehen. Das kann auch bei der Gestaltung von Webseiten berücksichtigt werden.
SEO-Newsletter bestellen