Google empfiehlt, Leerzeichen in URLs zu vermeiden. Besser ist es, Bindestriche oder ein entsprechendes Encoding zu verwenden. Dabei muss zwischen der URL selbst und dem Query String unterschieden werden. Das Encoding ist auch bei Nicht-ASCII-Zeichen in URLs wichtig.
Leerzeichen in URLs stellen eher die Ausnahme dar. Normalerweise werden Lücken zwischen Wörtern in URLs durch Bindestriche überbrückt. Dennoch gibt es Fälle, in denen Leerzeichen in URLs vorkommen können, etwa dann, wenn sie durch das verwendete Content Management- oder Shop-System automatisch gesetzt werden. Leerzeichen in URLs lassen sich auf unterschiedliche Weise darstellen:
- Einfache Darstellung: beispielseite.de/das ist eine beispielseite.html
- Encodierte Variante eins: beispielseite.de/das%20ist%20eine%20beispielseite.html
- Encodierte Variante zwei: beispielseite.de/das+ist+eine+beispielseite.html
Grundsätzlich gilt: Statt Leerzeichens URLs ist es immer besser, Bindestriche zu verwenden. Auch John Mueller von Google empfiehlt, Leerzeichen zu vermeiden. Anstelle der Leerzeichen sollte in URLs jeweils "%20" gesetzt werden. Im Query String dagegen kann entweder "%20" oder "+" für ein Leerzeichen stehen. Der Query String ist der meist der Teil eines GET-Requests hinter ein dem Fragezeichen. Ein Aufruf lässt sich dann zum Beispiel so schreiben:beispielseite.de/das%20ist%20eine%20beispielseite?mein+query+string="test"
Leerzeichen in URLs und das Canonical
Viele Content Management Systeme und Shops erlauben den Aufruf von Seiten oder Artikeln auf verschiedene Weisen. Im oben genannten Beispiel könnte es sein, dass jeder der drei gezeigten Aufrufe funktioniert. Das wiederum kann ein Problem im Hinblick auf die Indexierung durch die Suchmaschinen sein, denn wenn dieselbe Seite unter mehreren URLs zur Verfügung steht, kann das zur mehrfachen Indexierung und damit zu Duplicate Content führen. Deshalb sollte in solchen Fällen eine URL als Canonical gesetzt werden - das zeigt Google und den anderen Suchmaschinen, welche der Varianten als Haupt-URL angesehen werden soll. Beim Festlegen des Canonicals sollten die oben genannten Regeln beachtet werden. Das bedeutet konkret: Die Canonical-URL sollte diejenige sein, die keine Leerzeichen enthält, sondern bei der die Leerzeichen per "%20" und im Query-String per "%20" oder "+" kodiert sind.
Nicht-ASCII-Zeichen und Encoding in URLs
Bei internationalen Zeichen, die nicht im ASCII-Zeichensatz enthalten sind und die zum Beispiel aus dem UTF-8-Encoding stammen, sollte stets die kodierte Version der betreffenden Zeichen verwendet werden. Beispiel: die URL https://www.dmoz.org/World/Thai/%E0%B8%9A%E0%B9%89%E0%B8%B2%E0%B8%99/ enthält kodierte Zeichen aus dem Thailändischen. Der Browser stellt diese Zeichen in der Adresszeile korrekt dar. Kopiert man die URL jedoch und setzt sie in einen Texteditor ein, erscheint die kodierte Version der URL.Im Hinblick auf die Canonical-URL gilt auch hier, dass die kodierte Version verwendet werden sollte.