Wie unzuverlässig die Antworten von KI-Chatbots sind, zeigt eine aktuelle Studie: Für Fragen nach Quellen von Artikeln gaben die Chatbots in 60 Prozent der Fälle falsche Antworten. Noch graviender: Neben erfundenden Zitaten und Quellen täuschen die Chatbots Vertrauenswürdigkeit der Antworten vor.
KI-Chatbots sind nicht vertrauenswürdig. Dieses Fazit lässt sich aus einer Studie ziehen, die von Columbia Journalism Review veröffentlicht wurde. Daraus ergaben sich diese Erkenntnisse:
- Chatbots tendieren dazu, auch solche Fragen zu beantworten, die sie eigentlich nicht beantworten können, und geben falsche oder spekulative Antworten.
- Premium Chatbots lieferten sogar mehr falsche Antworten, die sie aber gleichzeitig als verlässlich bezeichneten.
- Viele Chatbots schienen die Regeln in der robots.txt zu umgehen.
- Generative Search-Tools erzeugten Links und zitierten syndizierte und kopierte Versionen von Artikeln.
- Die Lizenzierung von Newsinhalten bietet keine Gewähr für die korrekte Zitierung in den Antworten von Chatbots.
Für die Studie wurden zehn zufällige Artikel von verschiedenen Publishern ausgewählt. Aus diesen Beiträgen wurden Auszüge entnommen, die dann für die Anfragen an die Chatbots verwendet wurden. Nachdem jeder Chatbot die Auszüge erhalten hatte, wurden sie nach der Schlagzeile, dem Originalpublisgher, dem Veröffentlichungsdatum und der URL gefragt.
Dabei wurden Auszüge verwendet, für die Google die Originalquelle innerhalb der ersten drei Suchergebnisse anzeigt. Es wurden insgesamt 1.600 Anfragen gestellt (20 Publisher zu je zehn Artikeln und je acht Auszügen).
Sie benötigen SEO-Beratung für Ihre Website?
Perplexity noch am besten
Das Ergebnise: In mehr als 60 Prozent der Fälle lieferten die Chatbots teilweise oder komplett falsche Antworten. Dabei schnitt Perplexity mit 37 Prozent noch am besten ab, während Grok 3 eine deutlich höhere Fehlerrate aufwies. Hier waren 94 Prozent der Antworten teilweise oder komplett fehlerhaft.
Die meisten Chatbots verbanden falsche Antworten mit einer trügerischen Zuversicht in die Qualität ihrer Antworten: Phrasen wie "es ist möglich", "es scheint", "könnte" und ähnliche kamen selten vor. Auch räumten die Tools selten ein, dass sie eine Antwort nicht geben können. So lieferte zum Beispiel ChatGPT 134 falsche Antworten, zeigte fehlendes Vertrauen in die Antwort aber nur in 15 Fällen durch entsprechende Hinweise an. Lediglich der Microsoft Copilot lehnte mehr Fragen ab, als er beantworten konnte.
Premium-Chatbots sind nicht besser
Wer glaubt, dass die Premium-Versionen der Chatbots besser abschneiden, sieht sich durch die Studie getäuscht: Zwar gaben die Tools tatsächlich mehr korrekte Antworten als die kostenlosen Versionen, allerdings lag paradoxerweise auch die Fehlerrate höher. Das liegt daran, dass sie dazu tendierten, mehr falsche Antworten mit Zuversicht in die Korrektheit zu liefern, anstatt die Fragen einfach abzulehnen. Das erschwert es, richtige von falschen Antworten zu unterscheiden.
Robots.txt scheint für manche Chatbots keine Rolle zu spielen
Fünf von acht Chatbots, nämlich ChatGPT, Perplexity and Perplexity Pro, Copilot und Gemini, haben die Namen ihrer Crawler veröffentlicht, so dass diese bei Bedarf per robots.txt blockiert werden können. Dagegen sind die Namen der Crawler von DeepSeek, Grok 2 und Grok 3 nicht bekannt.
Allerdings gab es Überraschungen: ChatGPT, Perplexity und Perplexity Pro lieferten entweder keine Antworten zu Content, auf den sie eigentlich Zugriff hatten, und gaben dafür Antworten zu manchen Inhalten, die für sie per robots.txt gesperrt waren. Vor allem Perplexity Pro zeigte ein solches Verhalten. Perplexity konnte auch Antworten zu Inhalten geben, die hinter einer Paywall liegen.
Viele Quellen falsch oder erfunden
Auch die in den Antworten der Chatbots genannten Quellen sind kritisch zu bewerten. Problematisch ist dabei, dass oftmals vertrauenswürdige Quellen wie BBC genannt werden, die Antworten aber dennoch falsch sind. Außerdem werden häufig falsche Quellen genannt. Negativer Spitzenreiter in der Studie ist DeepSeek mit 115 von 200 betroffenen Artikeln.
Fazit: KI-Chatbots sind noch nicht vertrauenswürdig
All das zeigt: Die Antworten von KI-Chatbots sind derzeit noch alles andere als vertrauenswürdig. Die hohe Fehlerquote von mehr als 60 Prozent lässt eher auf Zufallstreffer denn auf gut recherchierte Inhalte schließen.
Wer sichergehen will, dass er die richtige Antwort bekommt, ist nach wie vor auf manuelle Recherche auch in klassischen Suchmaschinen wie Google angewiesen.
SEO-Newsletter bestellen