Johannes Müller von Google hat dazu geraten, sich nicht auf TF*IDF als Kennzahl für die Optimierung von Webseiten zu konzentrieren.
TF*IDF ist eine Kennzahl, die im Information Retrieval zur Bestimmung der Relevanz eines Dokuments für bestimmte Terme verwendet wird. Dabei steht "TF" für Termfrequenz und "IDF" für Inverse Document Frequency. Umso häufiger ein Term in einem Dokument vorkommt, also umso höher der Wert für TF ist, und umso seltener der Term in der Gesamtheit aller Dokumente erscheint (ausgedrückt durch den Wert für IDF), desto größer ist der Wert für TF*IDF und umso relevanter gilt das betreffende Dokument für den entsprechenden Term.
So viel zur Theorie. Doch nutzt Google TF*IDF als Rankingfaktor? Dies wurde in der Vergangenheit vielfach unterstellt. Entsprechende Ratgeber und auch Software, mit der sich der TF*IDF-Wert bestimmen lässt, gibt es zur Genüge.
Johannes Müller reagierte in einem Webmaster-Hangout auf die Frage zurückhaltend, ob und wie Google TF*IDF nutze. Zunächst einmal erklärte er, Google verwende zahlreiche Methoden aus dem Information Retrieval. Er empfahl, sich bei der Optimierung nicht auf solche künstlichen Faktoren zu konzentrieren. Zudem sei es gar nicht möglich, als Nutzer den IDF-Wert zu bestimmen, weil man dazu alle Dokumente im Index kennen müsste. Allerdings ist es rein statistisch gar nicht notwendig, dazu alle Dokumente auszuwerten. Es genügt schon eine ausreichend große Stichprobe, um die Häufigkeit von Termen in Dokumenten mit einer recht hohen Genauigkeit bestimmen zu können.
Blind einer solchen Metrik zu vertrauen und zu versuchen, durch das Anreichern einer Seite mit zusätzlichen Keywords besser Rankings zu erzielen, sei kurzsichtig, so Müller. Er sagte außerdem. TF*IDF sei eine recht alte Metrik, und die Dinge hätten sich in der Zwischenzeit weiterentwickelt.
Besser sei es, eine Seite so zu optimieren, dass alle zukünftigen Algorithmen zu einer guten Bewertung der Seite kämen.
TF*IDF eigne sich laut Müller noch am ehesten zum Identifieren von Stoppwörtern, also von solchen Wörtern, die in vielen Dokumenten besonders häufig vorkommen, wie zum Beispiel "der", "die", "das", "und" etc. im Deutschen.
Danke an Search Engine Journal
Titelbild: Copyright BillionPhotos.com - Fotolia.com