Wenn Chatbots falsch liegen: Warum Unsicherheitsmanagement wichtiger wird

Nicht der Fehler eines Chatbots ist das Problem, sondern wenn das System nicht zeigt, dass es unsicher ist.

Ein aktuelles (aber bislang nicht rechtskräftiges) Urteil des Oberlandesgerichts Hamm (Az. 4 UKl 3/25; Mai 2026) sorgt für Aufmerksamkeit: Wer einen medizinischen Chatbot betreibt, trägt auch Verantwortung für dessen Aussagen, selbst dann, wenn sie falsch sind. Und das verschiebt die Debatte: weg von der Frage, was technisch möglich ist, hin zu der Frage, was im Einsatz tatsächlich verantwortbar ist.

Genau an dieser Stelle setzt ein Thema an, mit dem sich das Fraunhofer IESE seit Längerem befasst: Unsicherheitsmanagement in KI-Systemen.

Unter Unsicherheitsmanagement versteht man die Methode, die statistische Unschärfe und die Wissensgrenzen von KI-Modellen aktiv zu messen, im Hintergrund zu bewerten und für den Nutzer transparent offenzulegen. Es macht unberechenbare Systeme für die Praxis kalkulierbar.

Das Grundproblem: Chatbots wirken oft verlässlicher, als sie sind

Gerade darin liegen ihre Stärke und zugleich ihr Risiko: Chatbots formulieren Antworten flüssig und überzeugend, ohne ihre Unsicherheit explizit kenntlich zu machen. Genau deshalb werden ihre Aussagen von Nutzenden leicht als faktisch korrekt verstanden, auch wenn sie nicht immer verlässlich sind.

Aus Sicht des Fraunhofer IESE ist genau das ein zentrales Risiko: KI-Systeme wie Chatbots liefern keine Wahrheit, sondern Vorhersagen auf Basis gelernter Muster.

Solche Vorhersagen sind immer mit Unsicherheit verbunden, zum Beispiel dann,

wenn die Anfrage außerhalb der Trainingsdaten liegt,
wenn Eingabedaten unklar sind,
wenn mehrere plausible Antworten existieren.

Bei generativer KI kommt hinzu: Die Antworten entstehen nicht durch ein »Wissen« im menschlichen Sinn, sondern auf Basis statistischer Wahrscheinlichkeiten darüber, welches Token als Nächstes am besten passt.

Bei den meisten Chatbots bleiben diese Unsicherheiten jedoch meist unsichtbar.

Haftungsrisiko bei Chatbots: Was das OLG-Hamm-Urteil verändert

Sätze wie »Das Modell ist nicht perfekt« greifen damit zu kurz. Stattdessen wächst die Erwartung, dass KI-Systeme erkennbar machen, wann ihre Antworten nur eingeschränkt verlässlich sind.

KI-Systeme müssen aktiv zeigen, wann sie nicht verlässlich sind:

Unsicherheitsmanagement ist damit nicht länger nur ein technisches Zusatzthema, eine »Nice-to-have« sondern eine organisatorisch und rechtlich relevante Anforderung.

Unsicherheitsmanagement: Der Forschungsansatz des Fraunhofer IESE

Der Ansatz ist klar: Unsicherheiten sollen nicht ausgeblendet werden, sondern müssen identifiziert, quantifiziert und aktiv genutzt werden.

Auf Chatbots übertragen heißt das hauptsächlich drei Dinge:

Unsicherheit erkennen

Ist die Anfrage außerhalb des bekannten Kontexts?
Sind mehrere Antworten gleich plausibel?

Unsicherheit einordnen

Wie verlässlich ist die generierte Antwort?
Welche Faktoren beeinflussen die Qualität (Daten, Modell, Kontext)?

Unsicherheit verständlich kommunizieren

Hinweis auf eingeschränkte Verlässlichkeit
Priorisierung kritischer Aussagen
ggf. Eskalation an den Menschen

Erst dadurch entsteht ein System, das im praktischen Einsatz nachvollziehbar und verantwortbar bleibt.

Der »Uncertainty Wrapper«: KI-Antworten messbar machen

Ein wichtiger Baustein aus der Forschung des Fraunhofer IESE ist der Uncertainty Wrapper.

Die Grundidee dahinter ist einfach: Jede KI-Antwort wird um eine Unsicherheitsbewertung ergänzt. Nutzende erhalten dann zusätzliche Hinweise, etwa dass die Unsicherheit hoch ist, die Anfrage außerhalb des Trainingskontexts liegt oder die Evidenz unklar bleibt.

Damit verändert sich auch die Form der Antwort: von einem schlichten »Hier ist die Antwort« zu einem »Hier ist die Antwort, und so verlässlich ist sie«.

Diese Erweiterung verbessert nachweislich die Entscheidungsqualität, die Transparenz und das Vertrauen in KI-Systeme.

Infografik zum Unsicherheitsmanagement bei medizinischen Chatbots: Ablauf von der Frage über die Absicherung von Halluzinationen und das Sicherheits-Gate bis zur bewerteten Antwort mit kontinuierlichem Monitoring. — Architektur für Unsicherheitsmanagement bei medizinischen Chatbots: Wie ein integriertes Sicherheits-Gate die Verlässlichkeit von KI-Antworten prüft und Halluzinationen

Warum das bei Chatbots besonders wichtig ist

Im Unterschied zu vielen anderen KI-Anwendungen stehen Chatbots in direkter Interaktion mit Endnutzenden. Gerade im medizinischen Bereich ist dies besonders kritisch, da die Endnutzenden häufig PatientInnen sind, die Gesundheitsfragen stellen und sich in unsicheren oder belastenden Situationen befinden. Falsche, missverständliche oder unvollständige Informationen können dazu führen, dass Symptome falsch eingeschätzt, notwendige ärztliche Termine verzögert oder ungeeignete Maßnahmen ergriffen werden. Da medizinische Informationen direkten Einfluss auf Gesundheit und Wohlbefinden haben, sind Transparenz, Zuverlässigkeit und eine klare Kommunikation bei medizinischen Chatbots von zentraler Bedeutung.

Deshalb betonen wir am Fraunhofer IESE, dass KI-Systeme über ihren gesamten Lebenszyklus hinweg abgesichert werden müssen.

Für Chatbots heißt dies beispielsweise:

kontinuierliches Monitoring von Unsicherheiten
Logging kritischer Antworten
dynamische Anpassung der Risikobewertung

Vier Gestaltungsprinzipien für vertrauenswürdige KI (EU AI Act)

Aus unserer Sicht ergeben sich daraus einige klare Gestaltungsprinzipien:

Unsicherheit sichtbar machen

Chatbots sollten keine Antworten erzeugen, die nur deshalb sicher wirken, weil sie sprachlich überzeugend formuliert sind. Stattdessen braucht es sichtbare Hinweise darauf, wie verlässlich eine Aussage im jeweiligen Kontext tatsächlich ist.

Interaktion am Risiko ausrichten

Wie ein System reagiert, sollte sich am Risiko orientieren. Wenn die Unsicherheit hoch ist, kann es sinnvoll sein, nachzufragen, die Antwort bewusst einzugrenzen oder menschliche Unterstützung einzubinden, statt eine scheinbar eindeutige Aussage auszugeben.

Den Anwendungskontext berücksichtigen

Wie streng solche Mechanismen ausfallen müssen, hängt stark vom Anwendungskontext ab. In kritischen Domänen wie Medizin, Recht oder Finanzen sind die Anforderungen an Verlässlichkeit, Transparenz und Absicherung naturgemäß höher.

Nachvollziehbarkeit sicherstellen

Genauso wichtig ist die Nachvollziehbarkeit: Entscheidungen und Systemreaktionen sollten so dokumentiert sein, dass sie später geprüft werden können (mit Blick auf interne Audits oder auch regulatorische Anforderungen wie dem EU AI Act).

Fazit: Unsicherheit ist kein Störfaktor, sondern ein zentrales Gestaltungselement vertrauenswürdiger KI

KI muss nicht fehlerfrei sein. Aber ihr Verhalten muss beherrschbar, nachvollziehbar und erklärbar bleiben.

Genau darin liegt der Beitrag des Fraunhofer IESE: Unsicherheit nicht als Störgröße zu behandeln, sondern als einen zentralen Baustein für vertrauenswürdige KI.

Möchten Sie Ihre KI-Systeme robust und vertrauenswürdig gestalten?

Die Absicherung von generativer KI und das Management von Unsicherheiten gehören zu den Kernkompetenzen des Fraunhofer IESE. Wir unterstützen Sie dabei, Ihre Chatbots und KI-Anwendungen fit für die Praxis zu machen und regulatorische Anforderungen (z. B. EU AI Act) frühzeitig zu berücksichtigen – von der Konzeption bis zur Implementierung von Schutzmechanismen wie dem Uncertainty Wrapper.

Kontaktieren Sie uns!