Google hat erklärt, warum es zu Abweichungen zwischen der Zahl gecrawlter Seiten in der Search Console und den Zahlen in den Server-Logs kommen kann.
Die Zahl der pro Tag von Google abgerufenen URLs einer Website ist eine wertvolle Information. Daraus lässt sich zum Beispiel ablesen, ob Google seine Crawl-Aktivitäten mit der Zeit erhöht oder reduziert. Daraus wiederum lassen sich Rückschlüsse auf das Crawl-Budget ziehen.
Doch was genau wird bei der Berechnung der Crawling-Statistiken in der Google Search Console einbezogen? Um diese Frage ging es im Webmaster-Hangout vom 26. November. Ein Nutzer hatte gefragt, warum die Zahlen aus den Logfiles seines Servers nicht zu den Angaben aus der Google Search Console passten.
Johannes Müller antwortete, in die Statisken würden alle Zugriffe eingerechnet, welche durch die Google-Infratsruktur erfolgen. Dazu gehöre auch der Abruf der robots.txt und von XML-Sitemaps. Auch Zugriffe weiterer Googlebots wie zum Beispiel des AdBots würden dazu zählen.
Der reine Blick auf den Abruf von HTML-Files sei unvollständig. Man solle sich ein umfassendes Bild machen und alle abgerufenen Dateien betrachten. Daraus lassen sich Erkenntnise ziehen, die zum Beispiel die Zeit oder die Dateigröße bei den Abrufen betreffen.
Müller wies außerdem darauf hin, dass der Abruf von Ressourcen externer Domains, die im HTML verlinkt seien, nicht in das Crawl-Budget einer Website eingerechnet werde. Wenn zum Beispiel Bilder von einer Drittdomain geladen werden, so würden diese Abrufe der betreffenden Domain zugeschrieben. Das sei auch für diejenigen relevant, die ein Content Delivery Network anbieten und Ressourcen für andere Websites bereitstellen.
Danke an Deep Crawl