75 Prozent der Websites, die KI-Bots blockieren, tauchen dennoch in KI-Zitaten auf
Das Blockieren von KI-Bots verhindert in den meisten Fällen nicht, dass die betreffenden Inhalte von der KI zitiert werden.
Viele Publisher versuchen, das Crawlen ihrer Inhalte durch KI-Bots zu verhindern, indem sie diese über die robots.txt-Datei blockieren. Eine Untersuchung von BuzzStream von vier Millionen Zitaten aus 3.600 Prompts in Systemen wie ChatGPT, Gemini und Google AI Overviews zeigt jedoch, dass dies in der Praxis oft kaum Auswirkungen auf die Zitierhäufigkeit hat.
Die wichtigsten Erkenntnisse:
- Rund 75 Prozent der Websites, die KI-Bots von OpenAI oder Google blockieren, tauchen dennoch in den KI-Zitaten auf.
- Etwa 95 Prozent der zitierten Seiten blockieren Bots, die für das KI-Training verwendet werden (wie GPTBot oder Google-Extended).
- Ungefähr 70 Prozent der ChatGPT-Zitate stammen von Websites, die Live-Retrieval-Bots (wie ChatGPT-User oder OAI-SearchBot) explizit blockieren.
Wie viele blockierende Seiten trotzdem in den Daten auftauchen (nach Bot aufgeschlüsselt):
- Google-Extended (Google Training): 92,3 Prozent der blockierenden Seiten erscheinen trotzdem in den KI-Antworten. Ein prominentes Beispiel ist yahoo.com, das den Bot blockiert und dennoch in fast 30.000 Zitaten auftauchte.
- GPTBot (OpenAI Training): 88,2 Prozent der Seiten, die diesen Bot aussperren, werden weiterhin zitiert.
- OAI-SearchBot (OpenAI Indexierung/Suche): 82,4 Prozent der Seiten, die diesen Bot blockieren, erscheinen dennoch im Datensatz.
- ChatGPT-User (OpenAI Live-Retrieval): 70,6 Prozent der blockierenden Seiten werden in den Antworten verwendet. Ein Beispiel ist cnbc.com, das fast alle OpenAI-Bots blockiert und dennoch 1.298 Mal als Quelle herangezogen wurde.
- Googlebot (Google Suchel): Hier lag die Blockade-Rate bei 0 Prozent, weil ein Aussperren dieses Bots bedeuten würde, dass die Seiten auch in der regulären Google-Suche nicht mehr auffindbar wären.
Warum tauchen diese Seiten trotz Blockade auf? Die Untersuchung liefert einige Erklärungsansätze für dieses Phänomen:
- Robots.txt ist nur eine Richtlinie: Es gibt Beweise dafür, dass KI-Unternehmen diese Richtlinien teilweise einfach umgehen. Ein Beispiel ist Perplexity.
- SERP-Extraktion: Viele KI-Modelle ziehen ihre Daten wie Titel, URLs und Snippets direkt aus den Suchergebnissen (SERPs), ohne den eigentlichen Server der Website jemals zu besuchen oder die Seite zu laden.
- Common Crawl (CCBot): Obwohl viele KI-Modelle historische Daten von Archiven wie Common Crawl nutzen, reicht auch das nicht als alleinige Erklärung aus, weil etwa 70 Prozent der untersuchten Seiten auch den dazugehörigen CCBot blockieren. Zudem handelt es sich bei den Quellen meist um sehr aktuelle Inhalte: Nur 15 Prozent der zitierten Artikel existierten bereits vor der Veröffentlichung von ChatGPT.
Fazit für die PR-Strategie
Die Analyse zeigt deutlich, dass das Blockieren von KI-Crawlern durch Nachrichtenseiten die Sichtbarkeit in KI-Antworten nicht signifikant verhindert.
Für die digitale PR-Arbeit bedeutet das: Man sollte sich nicht darauf konzentrieren, ob eine Seite Bots blockiert oder nicht. So lässt sich die Verwendung der Inhalte durch die KI nicht verhindern. Man sollte vielmehr darauf achten, starke Inhalte zu entwickeln, die über verschiedene Kanäle hinweg Anklang finden.
























