Google hat eine neue Dokumentation zu HTTP-Statuscodes und DNS-Fehlern veröffentlicht. Darin wird erklärt, welche Auswirkungen verschiedene Codes und Fehler auf die Suche haben können.
Bei der großen Vielfalt von HTTP-Statuscodes stellt sich häufig die Frage, wie Google reagiert, wenn es zum Beispiel auf einer Website häufig Serverfehler gibt, wie sich 404-Fehler auf das Crawlen auswirken oder ob eher 301- oder 302-Redirects empfehlenswert sind.
Google hat jetzt eine Dokumentation zu verschiedenen HTTP-Statuscodes und DNS-Fehlern veröffentlicht. Darin werden die 20 wichtigsten Statuscodes beschrieben, auf die der Googlebot beim Crawlen stoßen kann.
200er garantiert nicht die Indexierung
Neben dem bekannten 200er (alles ok) wird beispielsweise auch der Code 204 beschrieben (no content). In diesem Fall signalisiert der Googlebot der Indexierungspipeline, dass er keinen Content erhalten hat. In der Google Search Console kann dies als Soft-404 dargestellt werden. Wichtig: Auch ein HTTP-Code als 2xx (success) garantiert nicht die Indexierung einer URL.
HTTP-Status 202 (accepted): Hier wartet der Googlebot eine bestimmte Zeit, bevor er das, was zurückgeliefert wird, an die Indexierungspipeline weitergibt. Der jeweilige Timeout ist abhängig vom User Agent. So unterscheidet sich zum Beispiel der Timeout vom Googlebot für Smartphones vom Timeout für den Googlebot für Bilder.
Google folgt für die robots.txt weniger Redirect-Schritten
Der Googlebot folgt bis zu 10 Redirect-Schritten. Stößt der Googlebot innerhalb von zehn Schritten nicht auf Inhalte, dann kann in der Google Search Console ein Redirect Error angezeigt werden. Die maximale Anzahl der Redirect-Schritte variiert zwischen den verschiedenen Googlebots.
Im Fall der robots.txt folgt Google nur fünf Redirect-Schritten. Führt dies nicht zum Erfolg, wird dies wie ein 404 für die robots.txt behandelt.
Verschiedene Redirects werden gleich behandelt
Google behandelt verschiedene Redirect-Varianten wie 301 (permanent), 302 (found) und 308 (moved permanently) gleich, weist aber zugleich darauf hin, dass sie semantisch unterschiedlich sind. Man solle immer den Redirect verwenden, der zur Situation passe.
400er-Codes nicht zum Reduzieren des Crawlens verwenden
Die Statuscodes 401 (unauthorized) und 403 (forbidden) sollten nicht verwendet werden, um die Crawl-Rate zu begrenzen. Die 4xx Statuscodes haben, mit Ausnahme des Codes 429 (too many requests), keine Auswirkungen auf die Crawl-Rate. 429er-Fehler führen wie 5xx-Statuscodes (Serverfehler) zu einer zeitweisen Verringerung des Crawlens.
Die Verringerung der Crawl-Rate bei Serverfehlern findet proportional zur Anzahl der URLs statt, die einen Serverfehler liefern. URLs, die dauerhaft einen Serverfehler liefern, werden aus dem Index entfernt.
DNS-Fehler werden wie Serverfehler behandelt
DNS-Fehler, Network Timeouts und Connection Resets werden vom Googlebot wie 5xx Serferfehler behandelt. Bei Netzwerkproblemen wird das Crawlen sofort reduziert. Bereits indexierte URLs, die nicht erreichbar sind, können innerhalb von Tagen aus dem Google-Index entfernt werden. In der Google Search Console können entsprechende Fehlermeldungen angezeigt werden.
SEO-Newsletter bestellen