Wenn Google zu viele und auch noch die falschen URLs crawlt, gibt es mehrere Möglichkeiten, dies zu verhindern. Neben der robots.txt können zum Beispiel auch die Einstellungen der Crawl-Frequenz hilfreich sein.
Normalerweise ist das Crawlen einer Website durch Google unproblematisch. Kleine und größere Websites kann Google in den meisten Fällen ohne Schwierigkeiten erfassen.
Durch bestimmte Umstände ist es jedoch möglich, dass die Anzahl der zu crawlenden URLs so groß wird, dass sie eine Beeinträchtigung für das Crawlen insgesamt darstellen kann. Ein Beispiel dafür kann das Anbieten einer Suchfunktion auf einer Website sein: Wenn jeder eingegebene Suchbegriff zu einer eigenständigen URL führt, steigt deren Anzahl dadurch theoretisch ins Unendliche.
Eine weitere Quelle unkontrollierbarer URLs sind Open Redirects: Auf manchen Websites gibt es Weiterleitungen, die sich per URL-Parameter auslösen lassen, um zum Beispiel auf Nutzereingaben zu reagieren. Solche Open Redirects stellen eine Sicherheitslücke dar und können ebenfalls zu einer unbegrenzten Menge von URLs führen.
Als drittes Beispiel können sogenannte Spider Traps genannt werden: Dabei handelt es sich um Konstrukte auf einer Website, die durch das Erzeugen einer unendlichen Anzahl von URLs zu Crawling-Problemen führen können. Oftmals sind Spider Traps in Verbindung mit Online-Kalendern zu beobachten. Wenn solche Online-Kalender für jedes Datum eine eigenständige URL erzeugen und Google diese URLs crawlen kann, lässt dies die Anzahl der gecrawlten URLs ebenfalls stark ansteigen.
Um solchen Problemen zu begegnen, gibt es mehrere Möglichkeiten. Zunächst sollte natürlich die Ursache des Problems gelöst werden, zum Beispiel, indem man eine möglicherweise vorhandene Spider Trap entfernt.
Zur direkten und kurzfristien Beeinflussung des Crawlens gibt außerdem verschiedene Maßnahmen, die John Müller in den Google Search Central SEO Office Hours vom 9. April vorstellte:
Das Sperren der betreffenden URLs per robots.txt
Per robots.txt lässt sich verhindern, dass Google die unerwünschten URLs weiterhin crawlt. Problematisch kann das Sperren per robots.txt aber dann sein, wenn bereits viele der URLs indexiert wurden, denn das Indexieren lässt sich nicht per robots.txt sperren. Zudem kann Google ein möglicherweise auf den Seiten vorhandenes "noindex" nicht erkennen, wenn sie nicht gecrawlt werden können. Bereits indexierte Seiten bleiben damit also im Index erhalten. Und es können weitere Seiten indexiert werden, zum Beispiel dann, wenn sie von anderen Seiten verlinkt sind. Auch das lässt sich per robots.txt nicht verhindern. Google wird die Seiten dann allerdings ohne Inhalte indexieren, weil das Crawlen der Seiten nicht möglich ist.
Das Verringern der Crawl-Frequenz per Google Search Console
In der Google Search Console gibt es die Möglichkeit, die Crawl-Frequenz des Googlebots manuell zu reduzieren. Wie John Müller erklärte, führt das dazu, dass sich Google beim Crawlen auf die wichtigen URLs konzentriert. Problematische URLs wie solche aus den oben genannten Beispielen würden dann weniger gecrawlt werden.
Feedback an Google senden
Wenn die genannten Maßnahmen nicht zum gewünschten Erfolg führen, kann man per Google Search Console Feedback an das für das Crawlen zuständige Team von Google senden und darauf hoffen, Unterstützung zu erhalten.
Fazit
Wichtig ist, in Situationen mit Crawling-Problemen schnell zu reagiere, die Ursachen der Probleme zu beseitigen und dafür zu sorgen, dass nicht noch mehr unerwünschte URLs gecrawlt und indexiert werden. Welche Maßnahmen dabei am besten geeignet sind, hängt von der jeweiligen Situation ab.
Im Zweifelsfall sollte man sich Rat bei erfahrenen Personen suchen - zum Beispiel über das Google Hilfe-Forum.
Titelbild: Google