Die Säge, der schiefe Schnitt und die 45 Prozent

Du schickst eine Frage durch deinen KI-Assistenten, und er gibt dir einen sauberen, selbstsicheren Absatz zurück. Quellen genannt, Ton abgewogen, Struktur dicht. Du kopierst ihn in deinen Entwurf und machst weiter.

Drei Wochen später weist dich jemand darauf hin, dass zwei der Quellen nicht existieren und eine dritte das Gegenteil dessen sagt, was behauptet wurde. Das Werkzeug hat funktioniert. Das Ergebnis sah richtig aus. Aber der Schnitt war von Anfang an schief, und nichts im Prozess hat dir gesagt, dass du nachprüfen sollst.

Im Oktober 2025 veröffentlichten die BBC und die Europäische Rundfunkunion eine Studie über KI-generierte Nachrichtenantworten. Deutsche Medien reduzierten sie auf eine einzige Zahl: 45 Prozent der KI-Antworten seien falsch.

Die tatsächlichen Befunde sind genauer und interessanter. Sie zeigen nicht, dass KI versagt. Sie zeigen, was passiert, wenn ein System dir genau in dem Moment keine Reibung bietet, in dem du sie am dringendsten brauchst.

Was die Studie tatsächlich geprüft hat

Die Europäische Rundfunkunion und die BBC wollten eine eng gefasste Frage beantworten: Geben KI-Assistenten Nachrichteninhalte des öffentlich-rechtlichen Rundfunks korrekt wieder? Diese Rahmung ist wichtig. Es war kein allgemeiner Test der KI-Schlussfolgerung oder der faktischen Zuverlässigkeit. Die Studie sollte messen, wie gut Sprachmodelle Inhalte bestimmter Sender wiedergeben und zuordnen.

Getestet wurden ChatGPT, Microsoft Copilot, Google Gemini und Perplexity AI in 14 Sprachen, 18 Ländern und mit Beteiligung von 22 öffentlich-rechtlichen Sendern, darunter ARD, ZDF, Deutsche Welle, SRF, Rai und NOS.

Die Methodik beruhte auf vier Komponenten.

Erstens leiteten die Forschenden 30 Fragen aus echten Suchanfragen auf den Nachrichtenseiten der BBC und ihrer Partner ab. Das waren keine KI-Prompts. Es waren Suchanfragen im Stichwortformat: "Trump trade war?" oder "Who is the Pope?".
Zweitens wurde jede Frage mit einer einheitlichen Anweisung versehen: "Nutze nach Möglichkeit Quellen von [Sender]."
Drittens wurden technische Hürden, die KI-Crawler normalerweise blockieren, etwa robots.txt-Sperren, vorübergehend aufgehoben, damit die Modelle auf Inhalte zugreifen konnten, die sie sonst nie zu sehen bekämen.
Viertens bewerteten Journalist*innen rund 3.000 Antworten anhand von fünf Kriterien: faktische Genauigkeit, Quellennennung und Zuordnung, Meinung gegenüber Fakten, Editorialisierung und kontextuelle Vollständigkeit.

Das Design spiegelt eine bestimmte institutionelle Perspektive. Es simuliert, was passiert, wenn jemand eine Google-artige Frage in einen Chatbot tippt und eine journalistisch verlässliche Antwort erwartet. Das ist ein legitimes Szenario. Aber es ist nicht das einzige, und die Beschränkungen dieses Aufbaus prägen jedes Ergebnis, das folgt.

Mehrere unterschiedliche Werkzeuge auf einer Skizze für Holzbearbeitung - alle bis auf eines durchgestrichen. — Die Studie wollte testen, wie KI mit Sendeinhalten umgeht. Aber waren das die richtigen Werkzeuge für die Frage?

Was die Zahlen bedeuten

Die Schlagzeilenzahl: 45 Prozent aller Antworten enthielten mindestens ein "erhebliches Problem" (significant issue). Dieser Ausdruck, direkt aus der Studie übernommen, wurde zur Grundlage einer Welle alarmierender Berichterstattung. Aber die Studie selbst unterscheidet zwischen Problemtypen, und diese Unterscheidung ist zentral.

Rund 20 Prozent der Antworten enthielten faktische Ungenauigkeiten oder veraltete Informationen. Etwa 31 Prozent hatten Probleme bei den Quellen: fehlende Belege, falsche Zuordnungen oder erfundene Verweise. Es gibt Überschneidungen zwischen diesen Kategorien, aber der Kern bleibt. Ein großer Teil der beanstandeten Antworten war nicht faktisch falsch. Er war schlecht belegt.

Das ist ein echtes Problem. Eine Antwort, die etwas Wahres sagt, es aber einer Quelle zuschreibt, die nicht existiert, untergräbt Vertrauen auf andere Weise als eine Antwort, die etwas Falsches behauptet. Beides in eine einzige Prozentzahl zu pressen und diese Zahl dann "falsch" zu nennen, verdeckt die Art des Versagens. Der Unterschied zwischen "Diese Antwort enthält ein erhebliches Problem" und "Diese Antwort ist falsch" ist keine Spitzfindigkeit. Er ist das ganze Argument.

Ein schiefer Sägeschnitt in einem Holzbrett, daneben die angerissene Markierungslinie, die der Schnitt knapp verfehlt hat. — Am Wortlaut der Studie vorbeigesägt: nicht "Fehler“, sondern "Probleme“.

Fünf methodische Schwächen

Die Studie ist transparent in ihrem Design. Sie dokumentiert ihre Methoden und macht ihre Grenzen sichtbar. Aber diese Grenzen sind erheblich, und wer sie versteht, sieht die Ergebnisse anders.

Suchanfragen sind keine Prompts

Die Fragen der Studie stammten aus echtem Suchverhalten auf Nachrichtenseiten. Sie spiegeln, wie Menschen Google benutzen, nicht, wie sie mit Sprachmodellen umgehen. Eine Suchmaschine verarbeitet Stichwörter. Ein Sprachmodell verarbeitet Beziehungen zwischen Konzepten und es reagiert auf Struktur, Spezifik und Rahmung eines Prompts. Einem Chatbot eine nackte Stichwortanfrage wie "Trump trade war" vorzulegen und das Ergebnis dann zu bewerten, als wäre es eine durchdachte Antwort, ist ein Missverhältnis zwischen Werkzeug und Eingabe. Die Studie misst, was passiert, wenn man ein Sprachmodell wie eine Suchmaschine behandelt. Sie misst nicht, was das Modell kann, wenn man es nach seinen eigenen Regeln benutzt.

Eine eingeschränkte Quellenumgebung

Die Anweisung "Nutze nach Möglichkeit Quellen von [Sender]" begrenzte jedes Modell auf die Inhalte einer einzigen Medienorganisation. Diese Designentscheidung hat einen klaren Zweck: Sie erlaubt einem Sender zu beurteilen, wie KI mit seinen eigenen Inhalten umgeht. Aber sie bedeutet auch, dass die Studie nicht prüft, ob KI Informationen aus mehreren Quellen zusammenführen, widersprüchliche Darstellungen abwägen oder eine kontextuell vollständige Antwort konstruieren kann. Sie prüft das Zitierverhalten in einem künstlich engen Datenraum. Um beim Sägenbild zu bleiben: Hier wird getestet, was passiert, wenn man dem Werkzeug nur eine Materialsorte gibt. Nicht, wie gut das Werkzeug schneidet.

Kein Prompt Engineering

Die Modelle erhielten keine zusätzlichen Anweisungen über die Grundfrage hinaus. Keine Vorgabe zum Ton, keine Aufforderung zur Quellenprüfung, keine Anweisung, Unsicherheit kenntlich zu machen. Die Forschenden taten das bewusst: Sie wollten "typisches Nutzerverhalten" simulieren. Aber typisches Nutzerverhalten mit einem Taschenrechner sagt wenig über die Fähigkeiten des Taschenrechners. Es sagt etwas über die Person davor. Die Forschung zeigt durchgängig, dass die Qualität des Prompts einen messbaren, oft drastischen Effekt auf die Qualität des Ergebnisses hat. Ein Modell mit minimalem Prompting zu testen und daraus Schlüsse über seine Zuverlässigkeit zu ziehen, ist, als würde man die Leistung eines Autos im Leerlauf beurteilen.

Messwerkzeuge auf sandpapierhellem Hintergrund, ein Bandmaß und ein Anschlagwinkel, eines davon golden akzentuiert. — Welche Werkzeuge messen das, was ich eigentlich messen will?

Temporärer Zugang, nicht reproduzierbare Bedingungen

Während des Testzeitraums wurden technische Hürden aufgehoben, die KI-Systeme normalerweise vom Zugriff auf Sendeinhalte abhalten. Das gab den Modellen mehr Daten, als ihnen in jedem realen Szenario zur Verfügung stünden. Die Ergebnisse spiegeln deshalb eine Bestfall-Zugangsumgebung wider, die sich von gewöhnlichen Nutzenden oder von Forschenden mit eigenen Auswertungen nicht reproduzieren lässt. Die Testbedingungen wurden künstlich verbessert. Das stärkt die Ergebnisse in einer Hinsicht und untergräbt zugleich ihre Verallgemeinerbarkeit.

Eine Momentaufnahme beweglicher Ziele

Die Studie wurde zwischen Ende Mai und Mitte Juni 2025 durchgeführt, in einer Phase schneller Modellentwicklung. ChatGPT war im Übergang zu GPT-4o, Google rollte Gemini 1.5 aus, Microsoft integrierte Copilot tiefer, und Perplexity kombinierte erstmals Live-Suche mit LLM-Technologie. Business Punk verglich das in seiner Berichterstattung mit einer Bewertung des autonomen Fahrens von 2025 auf Basis der Technik von 2018, veröffentlicht unter der Schlagzeile "Selbstfahrende Autos sind unsicher". Die Studie hält einen Moment fest. Sie etabliert keinen stabilen Leistungsmaßstab, und sie kann es nicht, weil sich die Technik, die sie bewertet, schneller verändert, als jedes klassische Studiendesign es auffangen kann.

Was die Studie dennoch leistet

Keiner dieser Einwände entwertet die Forschung. Die Studie ist methodisch dokumentiert, in ihrem Vorgehen prinzipientreu und in vielen Punkten reproduzierbar. Sie identifiziert echte, wiederkehrende Muster: systematische Schwächen bei der Quellenzuordnung, Probleme mit der Aktualität von Informationen und ein hartnäckiges Versäumnis, faktische Berichterstattung von redaktioneller Rahmung zu trennen.

Sorgfältig gelesen zeigt sie nicht, dass "KI unzuverlässig ist". Sie zeigt, dass KI, die wie eine Suchmaschine benutzt wird, auf eine eingeschränkte Datenquelle gerichtet ist und mit minimalem Prompting Ergebnisse liefert, die journalistischen Standards nicht genügen. Das ist ein bedeutsamer Befund. Es ist auch eine viel speziellere Aussage als die, für die sich die meiste Berichterstattung entschieden hat.

Was die Medien falsch gemacht haben

Die Schlagzeilen erzählen ihre eigene Geschichte.

Heise: "Falschinformation durch KI: 45 Prozent der Antworten fehlerhaft". Blick aus der Schweiz: "KI-Chatbots verdrehen bei Nachrichten fast jede zweite Antwort". Tagesschau: "KI-Chatbots lügen bei 40 Prozent der Antworten", eine Schlagzeile, die später still korrigiert wurde. Das Muster ist über die Redaktionen hinweg dasselbe: Die 45-Prozent-Zahl wird aus ihrem Kontext gelöst, aus "erheblichem Problem" wird "fehlerhaft" oder "falsch", und die Unterscheidung der Studie selbst zwischen Quellenproblemen und faktischen Ungenauigkeiten verschwindet.

Eine genauere Schlagzeile hätte gelautet: "Studie: Rund 45 Prozent der KI-generierten Nachrichtenantworten zeigen Probleme bei Quellen oder faktischer Genauigkeit." Weniger dramatisch. Ehrlicher. Und deutlich weniger nützlich, um Klicks zu erzeugen.

Business Punk lieferte eine schärfere Lesart. Hinter der Studie, so das Argument, liege ein Machtkonflikt: Wer kontrolliert künftig den Zugang zur Wahrheit, Medienorganisationen oder KI-Modelle? Für die BBC und die EBU steht viel auf dem Spiel: Vertrauen, Einfluss, Legitimität.

Indem sie KI-Assistenten als fehleranfällig rahmen, sichern sie sich eine Art moralische Deutungshoheit. Das macht die Studie nicht unredlich. Aber es macht die Rahmung um sie herum zu etwas, das dieselbe kritische Aufmerksamkeit verdient, die die Studie von uns gegenüber KI-Ausgaben verlangt.

Ein kleiner, kurzer Sägeschnitt in einem Brett erzeugt eine riesige Menge digitalen Sägemelhs aus leuchtenden Nullen und Einsen. — Warum machten Redaktionen aus "erheblichen Problemen" ein Feuerwerk über KI-Falschinformation?

Die Reibung, die fehlt

Das tiefere Problem, das die Studie zutage fördert, vielleicht ungewollt, betrifft nicht die Genauigkeit von KI. Es betrifft das Fehlen von Reibung in Systemen, die unsichere Ausgaben mit großer Sicherheit präsentieren.

Ein Sprachmodell weiß nichts. Es sagt voraus. Wenn es einen sauberen Absatz mit zitierten Quellen produziert, berichtet es nicht. Es erzeugt die statistisch wahrscheinlichste Fortsetzung deiner Eingabe. Ist diese Eingabe vage, wird die Ausgabe vage. Fragt die Eingabe nach Quellen, produziert das Modell womöglich plausibel aussehende Belege, die nicht existieren. Nichts in der Oberfläche signalisiert das. Nichts bremst dich. Nichts fragt: "Bist du sicher, dass du dem vertrauen willst?"

Das ist der schiefe Schnitt. Kein Werkzeug, das versagt, sondern ein Werkzeug, das auf eine Weise gelingt, die sich von verlässlicher Ausgabe nicht unterscheiden lässt, und ein Prozess, der keinen Moment des Widerstands bietet, in dem du den Fehler bemerken könntest.

Der Fall der Berliner Löwin von 2023 lohnt hier die Erinnerung. Ein verwackeltes Handyvideo, ein Gerücht, und innerhalb von Stunden glaubte halb Deutschland, eine Löwin streife frei durch die Vororte. Es war ein Wildschwein. Keine KI war beteiligt. Kein Algorithmus verstärkte die Geschichte. Nur Menschen, die teilten, was sie glaubten, und Medien, die einander zitierten. Eine Welle der Falschinformation braucht keine KI. Sie braucht nur das Fehlen von Reibung an dem Punkt, an dem jemand beschließt, zu vertrauen und zu teilen.

Die EBU/BBC-Studie ist nicht der Skandal, zu dem sie gemacht wurde. Sie ist ein Spiegel. Sie zeigt, wie wir mit Werkzeugen umgehen, die wir nicht ganz verstehen, wie wir flüssige Ausgabe mit verlässlicher Ausgabe verwechseln, und wie wir, wenn der Schnitt schief gerät, nach der Säge greifen, statt zu prüfen, wie wir sie gehalten haben.

Quellen und weiterführende Lektüre

Originalstudie: EBU/BBC (2025): News Integrity in AI Assistants (PDF)

Deutschsprachige Berichterstattung über die Studie:

Heise.de, 22.10.2025: Falschinformation durch KI: 45 Prozent der Antworten fehlerhaft
Tagesschau.de, 22.10.2025: Studie: KI Chatbots lügen bei 40 Prozent der Antworten (Schlagzeile später korrigiert)
Börsenblatt, 23.10.2025: Fast die Hälfte aller KI-Antworten mit mindestens einem erheblichen Fehler
Blick (CH), 22.10.2025: Neue EBU-Studie: KI-Chatbots verdrehen bei Nachrichten fast jede zweite Antwort (Schlagzeile später angepasst, Link unverändert: „neue-studie-zeigt-ki-chatbots-verdrehen-bei-nachrichten-fast-jeder-zweiten-antwort„)
Business Punk, 29.10.2025: 45 % der Antworten falsch?! Warum die neue BBC/EBU-Studie zu KI-Assistenten uns mehr über Journalismus verrät als über KI.