SEO-News

Googlebot mit LupeWenn Google zu viele und auch noch die falschen URLs crawlt, gibt es mehrere Möglichkeiten, dies zu verhindern. Neben der robots.txt können zum Beispiel auch die Einstellungen der Crawl-Frequenz hilfreich sein.


 Anzeige

Normalerweise ist das Crawlen einer Website durch Google unproblematisch. Kleine und größere Websites kann Google in den meisten Fällen ohne Schwierigkeiten erfassen.

Durch bestimmte Umstände ist es jedoch möglich, dass die Anzahl der zu crawlenden URLs so groß wird, dass sie eine Beeinträchtigung für das Crawlen insgesamt darstellen kann. Ein Beispiel dafür kann das Anbieten einer Suchfunktion auf einer Website sein: Wenn jeder eingegebene Suchbegriff zu einer eigenständigen URL führt, steigt deren Anzahl dadurch theoretisch ins Unendliche.

Eine weitere Quelle unkontrollierbarer URLs sind Open Redirects: Auf manchen Websites gibt es Weiterleitungen, die sich per URL-Parameter auslösen lassen, um zum Beispiel auf Nutzereingaben zu reagieren. Solche Open Redirects stellen eine Sicherheitslücke dar und können ebenfalls zu einer unbegrenzten Menge von URLs führen.

Als drittes Beispiel können sogenannte Spider Traps genannt werden: Dabei handelt es sich um Konstrukte auf einer Website, die durch das Erzeugen einer unendlichen Anzahl von URLs zu Crawling-Problemen führen können. Oftmals sind Spider Traps in Verbindung mit Online-Kalendern zu beobachten. Wenn solche Online-Kalender für jedes Datum eine eigenständige URL erzeugen und Google diese URLs crawlen kann, lässt dies die Anzahl der gecrawlten URLs ebenfalls stark ansteigen.

Um solchen Problemen zu begegnen, gibt es mehrere Möglichkeiten. Zunächst sollte natürlich die Ursache des Problems gelöst werden, zum Beispiel, indem man eine möglicherweise vorhandene Spider Trap entfernt.

Zur direkten und kurzfristien Beeinflussung des Crawlens gibt außerdem verschiedene Maßnahmen, die John Müller in den Google Search Central SEO Office Hours vom 9. April vorstellte:

 

Das Sperren der betreffenden URLs per robots.txt

Per robots.txt lässt sich verhindern, dass Google die unerwünschten URLs weiterhin crawlt. Problematisch kann das Sperren per robots.txt aber dann sein, wenn bereits viele der URLs indexiert wurden, denn das Indexieren lässt sich nicht per robots.txt sperren. Zudem kann Google ein möglicherweise auf den Seiten vorhandenes "noindex" nicht erkennen, wenn sie nicht gecrawlt werden können. Bereits indexierte Seiten bleiben damit also im Index erhalten. Und es können weitere Seiten indexiert werden, zum Beispiel dann, wenn sie von anderen Seiten verlinkt sind. Auch das lässt sich per robots.txt nicht verhindern. Google wird die Seiten dann allerdings ohne Inhalte indexieren, weil das Crawlen der Seiten nicht möglich ist.

 

Das Verringern der Crawl-Frequenz per Google Search Console

In der Google Search Console gibt es die Möglichkeit, die Crawl-Frequenz des Googlebots manuell zu reduzieren. Wie John Müller erklärte, führt das dazu, dass sich Google beim Crawlen auf die wichtigen URLs konzentriert. Problematische URLs wie solche aus den oben genannten Beispielen würden dann weniger gecrawlt werden.

 

Feedback an Google senden

Wenn die genannten Maßnahmen nicht zum gewünschten Erfolg führen, kann man per Google Search Console Feedback an das für das Crawlen zuständige Team von Google senden und darauf hoffen, Unterstützung zu erhalten.

 

Fazit

Wichtig ist, in Situationen mit Crawling-Problemen schnell zu reagiere, die Ursachen der Probleme zu beseitigen und dafür zu sorgen, dass nicht noch mehr unerwünschte URLs gecrawlt und indexiert werden. Welche Maßnahmen dabei am besten geeignet sind, hängt von der jeweiligen Situation ab.

Im Zweifelsfall sollte man sich Rat bei erfahrenen Personen suchen - zum Beispiel über das Google Hilfe-Forum.

 

Titelbild: Google

 

Verwandte Beiträge

Die Vorstellung, dass Google URLs direkt crawlt, auf deren Link der Googlebot stößt, ist falsch. Vielmehr werden die URLs zuvor gesammelt und später besucht.

Der Wechsel der IP-Adresse für eine Website wirkt sich laut Google normalerweise nicht auf die Rankings aus. Es kann aber zu Veränderungen beim Crawlen kommen.

Wenn es auf einer Website zum Erscheinen einer großen Anzahl nicht relevanter und nicht funktionierender URLs kommt, schadet das weder der Indexierung noch der Qualitätsbewertung durch Google.

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen InternetX

SEO Agentur aus Darmstadt

Better sell online

Online Solutions Group

Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px