Google wird den Support für einige Regeln in der robots.txt zum 1. September einstellen. Dazu gehört auch die Verwendung von 'noindex'.
Gestern hatte Google bekannt gegeben, sich für die Etablierung des Robots Exclusion Protocols (REP) als Internet-Standard einzusetzen. Heute gibt es von Google weitere Informationen zum Vorhaben. So sollen zukünftig einige Regeln in der robots.txt nicht mehr unterstützt werden. Man habe sich die Verwendung verschiedener Regeln angesehen und eine geringe Verbreitung festgestellt. Regeln wie crawl-delay, nofollow oder noidex würden nur in 0,001 Prozent aller robots.txt-Dateien im Internet verwendet. Diese Regeln seien auch nie von Google dokumentiert worden.
Daher soll der Support für diese Regeln zum 1. September eingestellt werden. Als Alternativen bieten sich die folgenden Optionen an:
- noindex in den Meta Robots-Tags oder im X-Robots-Tag im HTTP-Header
- 404- oder 410-Status-Codes: Beide zeigen an, dass eine Seite nicht zur Verfügung steht, und führen zum Entfernen der betreffenden URLs aus dem Index, wenn sie erneut gecrawlt werden
- Passwort-Schutz: Solange kein Markup verwendet wird, um Inhalte zu kennzeichnen, die nur per Abonnement oder hinter einer Paywall verfügbar sind, werden die betreffenden Seiten aus dem Google-Index entfernt
- Disallow in der robots.txt: Inhalte von Seiten, die per disallow blockiert sind, werden nicht gecrawlt und nicht indexiert. Die URLs können jedoch dann indexiert werden, wenn sie verlinkt sind. Allerdings wird Google sie dann in den Suchergebnissen kaum anzeigen.
- Entfernen per URL Removal Tool in der Search Console: Damit lassen sich URLs übergangsweise aus den Suchergebnissen ausblenden.