Stanford University: KI-Modelle sind bei Fragen zu News recht zuverlässig
KI-Chatbots beantworten unter idealen Bedingungen Fragen zu News recht zuverlässig. Unter erschwerten Bedingungen sieht das ganz anders aus.
In einer Studie des Stanford HAI wurden sechs kommerzielle KI-Chatbots bei der Beantwortung von Fragen zu aktuellen Nachrichten getestet. Dabei zeigten sich insgesamt recht gute Ergebnisse. Das gilt aber nur, solange es gute Quellen gibt und die Fragen klar und eindeutig gestellt werden.
Die Untersuchung basiert nicht auf den aktuellen Modellen der Anbieter. So wurden zum Beispiel Gemini 3 Flash und Pro sowie Grok 4 getestet.
SEO-Beratung: Wir sind Ihre Experten
Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.
Hohe Gesamtgenauigkeit, aber starke regionale Ungleichheit
Die besten Systeme im Test (Gemini 3 Flash, Grok 4 und Gemini 3 Pro) erreichten bei Multiple-Choice-Fragen eine Genauigkeit von über 90 Prozent. Diese aggregierten Werte verschleiern jedoch deutliche Unterschiede: Während fünf der sechs untersuchten Regionen konstant gute Ergebnisse lieferten, fiel die Genauigkeit bei Nachrichtenfragen auf Hindi auf durchschnittlich 79,3 Prozent ab. Bei Hindi war das Fehlervolumen in etwa doppelt so hoch wie in allen anderen Regionen.
Fehler entstehen bei der Informationsbeschaffung
Die Systeme scheitern an der Anknüpfung von Beweisen, dem sogenannten Evidence Binding. Über 70 Prozent der falschen Antworten resultierten aus Fehlern bei der Informationsbeschaffung: Entweder fanden die Modelle keine ausreichend relevanten Inhalte, oder sie nutzten Quellen, die zwar thematisch verwandt, aber faktisch abweichend waren. Wenn das System die korrekte Quelle fand, zog es fast immer auch die richtige Antwort daraus.
Dominanz englischsprachiger Quellen
Selbst bei Fragen zu nicht-englischen Nachrichtenberichten stützten sich die Chatbots stark auf globale englischsprachige Quellen. Die englische Wikipedia war regionenübergreifend die am häufigsten zitierte Quelle überhaupt. Das führte dazu, dass KI-Modelle bei nicht-englischen Themen häufig auf Ersatzquellen zurückgreifen. Damit erhöhte sich das Risiko für faktische Abweichungen.
Zitate werden durch rechtliche und kommerzielle Faktoren gesteuert
Welche Quellen die Chatbots angeben, hängt stark von rechtlichen Beschränkungen und Scraping-Richtlinien wie der robots.txt ab. Obwohl die Fragen auf BBC-Artikeln basierten, zitierten drei der Chatbots die BBC so gut wie nie, um potenziell rechtliche Konflikte zu vermeiden. Grok 4 hingegen führte in 28,5 Prozent der Fälle einen BBC-Link an, vermutlich aufgrund eines aggressiveren Crawling-Verhaltens.
Extreme Anfälligkeit für fehlerhafte oder unpräzise Fragen
Während die Modelle bei präzise formulierten Fragen zuverlässig arbeiteten (88–96 Prozent Genauigkeit), brach ihre Leistung drastisch ein, sobald die Fragen subtile falsche Prämissen oder verdrehte Fakten enthielten. Unter solchen erschwerten Bedingungen fiel die Genauigkeit von GPT-5 beispielsweise auf nur 19 Prozent ab, während Grok 4 mit 70 Prozent am robustesten blieb.
Fazit
Die Gesamtgenauigkeit eines Modells ist irreführend, weil sie verdeckt, dass KI-Chatbots bei bestimmten Sprachen, unklar gestellten Fragen und in ihrer Quellenwahl systematische Schwächen aufweisen. Um KI-Modelle als Nachrichtenvermittler fair zu bewerten, müssen laut der Studie auch Kriterien wie regionale Zuverlässigkeit, transparente Quellennennung und Robustheit bei Alltagsfragen gemessen werden.
SEO-Newsletter bestellen

























