Liefert eine Website beim Versuch, die robots.txt abzurufen, über längere Zeit einen 500er-Fehler, kann Google das Crawlen wieder aufnehmen. Google geht dann davon aus, dass es sich um eine fehlerhafte Konfiguration handelt.
Vor dem Crawlen einer Website ruft der Googlebot die zugehörige robots.txt-Datei ab. Kommt es bei diesem Abruf zu einem Serverfehler (500er-Fehler), crawlt Google die Website erst einmal nicht.
Dauert dieser Zustand über längere Zeit an, kann es jedoch sein, dass Google von einem Konfigurationsfehler ausgeht und die Website wieder crawlt. Das erklärte Johannes Müller im Webmaster-Hangout vom 13. Dezember.
In der vorangegangenen Anfrage ging es um den Fall, dass es beim Abruf der robots.txt längere Zeit zu einem 503-Fehler gekommen war. Dieser Fehler steht für "Service Unavailable" und kommt zum Beispiel vor, wenn ein Webserver aufgrund eines plötzlichen Trafficanstiegs überlastet ist.
Wenn Google erkenne, dass es sich um ein permanentes Problem handele, kann Google den Serverfehler nach einem längeren Zeit als 404 behandeln, was schlicht bedeutet, dass es keine robots.txt gibt. Dann kann das Crawlen wieder aufgenommen werden.
Dokumentiert ist das auch auf der entsprechenden Hilfeseite von Google:
"Der Fehler 503 (Service Unavailable) hat relativ häufige Wiederholungsversuche zur Folge. Wenn die robots.txt-Datei länger als 30 Tage nicht erreichbar ist, wird die letzte im Cache gespeicherte Kopie der robots.txt-Datei verwendet. Falls nicht verfügbar, geht Google davon aus, dass es keine Crawling-Einschränkungen gibt."
"Google-spezifisch: Sollten wir feststellen, dass eine Website aufgrund fehlerhafter Konfiguration einen 5xx-Fehler statt des Fehlers 404 für fehlende Seiten zurückgibt, behandeln wir einen 5xx-Fehler von dieser Website als 404-Fehler."
Doch wie passt das zu früheren Berichten, dass dauerhafte 500er-Fehler sogar zum Deindexieren einer Website führen können? Diese Frage beantwortet Google nicht.
Um sicher zu gehen, sollte man auf jeden Fall dafür sorgen, dass entweder eine robots.txt vorhanden ist oder dass der Aufruf der robots.txt zu einem 404-Fehler führt.
SEO-Newsletter bestellen