SEO-News

Den 'Googlebot' gibt es nicht. Dahinter steckt eine riesige Infrastruktur

Christian Kunz

16. März 2026

Zuletzt aktualisiert: 16. März 2026

Es gibt nicht den einen ‘Googlebot’, sondern eine komplette Crawler-Infrastruktur, die sich flexibel zu verschiedenen Zwecken einsetzen lässt.

Das Wichtigste in Kürze

Die Google Crawler-Infrastruktur lässt sich zu verschiedenen Zwecken konfigurieren und per API abrufen.
Man unterscheidet zwischen Crawlern und Fetchern.
Die Dateilimits beim Abruf von Daten variieren nach Dateityp.
Geoblocking auf Websites sollte die USA nicht sperren, um das Crawlen durch Google zu ermöglichen.

In einer Episode des Podcasts „Search Off the Record“ unterhalten sich Martin Splitt und Gary Illyes vom Google Search Relations Team über die technischen Hintergründe der Web-Crawler von Google.

SEO-Beratung: Wir sind Ihre Experten

Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Unsere Beratungsleistungen

Christian Kunz

SEO Experte

David Wulf

SEO Experte

Sven Häwel

Offpage-Experte

Der Mythos vom „Googlebot“

Oft wird der „Googlebot“ wie ein eigenständiges Programm beschrieben. Das ist aber ein Missverständnis und ein Relikt aus den frühen 2000er Jahren, als Google im Grunde nur einen Crawler für ein einziges Produkt hatte.

Heute gleicht die Crawler-Infrastruktur von Google eher einer Software as a Service (SaaS), die tief im Google-Netzwerk verankert ist und über API-Endpunkte angesprochen wird. Verschiedene Teams und Produkte wie z.B. die Web-Suche oder Ads rufen diese API auf, übergeben spezifische Parameter und lassen die Infrastruktur den eigentlichen Abruf der Daten übernehmen. Der Name „Googlebot“ ist dabei keine eigenständige Software, sondern im Grunde nur der Name eines speziellen Clients oder ein Teil der Konfiguration, die bei diesen API-Aufrufen übergeben wird.

Unterschied zwischen Fetcher und Crawler

Bei Google gibt es zahlreiche Teams, die Daten aus dem Web abrufen wollen. Dabei wird grundsätzlich zwischen Crawlern und Fetchern unterschieden.

Crawler arbeiten im Batch-Betrieb und verarbeiten kontinuierlich einen konstanten Strom an URLs im Hintergrund. Sie arbeiten automatisiert und dann, wenn Ressourcen verfügbar sind.
Fetcher arbeiten nutzergesteuert und rufen immer nur einzelne URLs ab. Bei einem Fetcher wartet am anderen Ende immer ein Nutzer oder ein spezifisches System direkt auf die Antwort.

Aufgrund der schieren Menge an verschiedenen Crawlern und Fetchern dokumentiert Google öffentlich nur die größten und wichtigsten, um die Übersichtlichkeit der Dokumentation zu wahren.

Schutz des Internets und Dateilimits

Eine wichtige Aufgabe der Crawler-Infrastruktur ist laut Splitt und Illyes der Schutz des Webs. Würde ein neuer Entwickler versehentlich große Datenmengen von einem kleinen Server abrufen, könnte dieser schnell zusammenbrechen. Deshalb greifen besondere Schutzmechanismen: Antwortet ein Server beispielsweise langsamer oder gibt einen 503-Fehlercode (“Service Unavailable”) zurück, drosselt Googles System automatisch die Frequenz der Abfragen.

Zudem gibt es strikte Datenlimits. Standardmäßig stoppt die Infrastruktur den Download einer Datei nach 15 Megabyte. Einzelne Teams können dieses Limit jedoch anpassen. Für die reguläre Google Web-Suche ist das Limit bei normalen HTML-Seiten beispielsweise sogar auf nur 2 Megabyte reduziert, während es für PDFs auf größere Werte wie 64 Megabyte hochgesetzt ist, um diese korrekt verarbeiten zu können.

Geoblocking und aggressives Caching

Die Crawler von Google arbeiten standardmäßig aus den USA, meistens mit IP-Adressen aus Kalifornien. Wenn eine Webseite ein striktes Geoblocking verwendet und Anfragen von außerhalb einer bestimmten Region blockiert, erhält Google in der Regel Fehlercodes wie einen 403, oder die Verbindung bricht ab. Obwohl Google theoretisch die Möglichkeit hätte, begrenzte IP-Pools aus anderen Ländern wie z.B. Deutschland zu nutzen, geschieht das in der Praxis extrem selten und nur bei einer extrem hohen Relevanz des Inhalts. Wer sicherstellen möchte, dass seine Seite gecrawlt wird, sollte den Googlebot also keinesfalls per Geoblocking aussperren.

Um Ressourcen zu schonen, nutzt Google zudem ein sehr aggressives internes Caching. Wenn beispielsweise das Google News-Team eine Seite vor wenigen Sekunden abgerufen hat und kurz darauf der Crawler für die Web-Suche denselben Inhalt benötigt, wird intern einfach die bereits gespeicherte Kopie weitergegeben, anstatt die Ziel-Webseite ein zweites Mal anzurufen. Das funktioniere jedoch nur, solange die internen Richtlinien der jeweiligen Produkte die Wiederverwendung der Daten erlauben.

{loadposiiton credentials}