Urteilsfehler in der Medizin

Warum das Problem nicht im Wissen liegt

Ärzt:innen im Operationssaal während eines medizinischen Eingriffs als Symbol für Diagnostik, Urteilsfehler und Entscheidungsqualität in der Medizin.
Urteile entstehen nicht aus Wissen. Sie entstehen aus dem, was im Moment des Urteilens zugänglich ist.
— L. A.

Wenn wir zur Ärztin oder zum Arzt gehen, vertrauen wir darauf, dass Wissen und Erfahrung die richtige Diagnose sichern. Das ist vernünftig. Es ist nur nicht die ganze Wahrheit.

Denn das, was medizinischen Entscheidungen fehleranfällig macht, hat meistens weniger mit fehlendem Wissen zu tun als mit der Art, wie dieses Wissen im Moment des Urteils verarbeitet wird.

Was auf dem Überweisungsschein steht

Vorabdiagnosen sind keine neutralen Informationen. Sie setzen einen Urteilskorridor, der bestimmt, wie alles Folgende gelesen wird. Wer eine Patientin mit dem Hinweis „Bronchitis" sieht, sieht sie durch diesen Hinweis, nicht weil jemand nachlässig ist, sondern weil das schnelle, intuitive Denken genau das tut. Es ordnet ein, bevor das bewusste Denken überhaupt einsetzt.

In einem dokumentierten Fall kam eine Patientin mit Kurzatmigkeit, Husten und Belastungsdyspnoe in die Notaufnahme, der Überweisungsschein nannte Bronchitis, und das Team behandelte entsprechend. Die Lungenembolie, die tatsächlich vorlag, zeigte sich erst durch einen Ultraschall, der aus einem anderen Grund gemacht wurde. Die relevanten Hinweise waren nicht vollständig abwesend. Sie wurden durch eine bereits gesetzte Deutung gelesen.

In einer Auswertung von 100 Diagnosefehlern in der Inneren Medizin war der häufigste beitragende Faktor nicht fehlendes Wissen, sondern fehlerhafte Verarbeitung vorhandener Informationen. Eine Befragung von 387 Notaufnahmeärztinnen und -ärzten ergab, dass kognitive Faktoren in 96 Prozent aller Diagnosefehler mitbeteiligt waren und spiegelt den Normalfall menschlicher Urteilsbildung wider.


Warum Erfahrung das nicht löst

Die intuitive Annahme lautet, dass Erfahrung Schutz aufbaut. Wer mehr gesehen hat, urteilt besser. Das stimmt oft. Aber nicht immer in der Weise, in der wir es uns wünschen.

Erfahrung macht Mustererkennung schneller. Eine erfahrene Ärztin erkennt Zusammenhänge in Sekunden, die andere mühsam zusammentragen müssten. Genau diese Stärke wird zur Schwachstelle, sobald das erkannte Muster nicht zum Fall passt und das analytische Denken nicht als Korrektiv einspringt, weil die Situation bereits vertraut wirkt. Der Fall fühlt sich dann nicht mehr offen an. Er wirkt bereits verstanden.

Die subjektive Sicherheit im eigenen Urteil liegt systematisch über der tatsächlichen Trefferquote, und dieser Effekt verschwindet mit zunehmender Erfahrung nicht. Mamede und Kolleg:innen haben das experimentell gezeigt: Assistenzärzt:innen, die zuvor einen Fall mit einer bestimmten Diagnose bearbeitet hatten, neigten bei einem nachfolgenden Fall mit ähnlicher Symptomatik dazu, dieselbe Diagnose zu bevorzugen, auch wenn sie objektiv nicht passte. Die kürzliche Erfahrung hatte die Wahrnehmung von Wahrscheinlichkeit verschoben, ohne dass die Betroffenen es bemerkten.

Das Gefühl von Sicherheit ist nicht dasselbe wie die Qualität des Urteils.


Wie eine Diagnose an Gewicht gewinnt

Diagnostische Fehler entstehen selten durch einen einzigen Denkfehler. Häufig ist es eine Bewegung.

Zuerst setzt eine Vorabinformation den Rahmen, eine Triage-Notiz, eine Überweisung, eine Bemerkung einer Kollegin. Dann werden neue Informationen in diesen Rahmen eingeordnet. Was passt, wird sichtbar. Was nicht passt, wirkt wie ein Nebengeräusch. Sobald eine plausible Erklärung gefunden ist, endet die Suche früher als sie sollte. Und wenn diese Erklärung mehrfach weitergegeben wurde, fühlt sie sich irgendwann nicht mehr wie eine Hypothese an, sondern wie ein Befund.

Eine Diagnose wird dann nicht wahrer, aber sie wird sozial stabiler.

Das ist gefährlich, weil Menschen nicht nur auf Fakten reagieren, sondern auf die Stabilität, mit der Fakten präsentiert werden. Eine Diagnose, die in drei Übergaben wiederholt wurde, wirkt anders als eine Diagnose, die gerade erst als Möglichkeit formuliert wurde, auch dann, wenn beide auf derselben Evidenz beruhen. Eine retrospektive Studie zeigte, dass 22 Prozent aller ischämischen Schlaganfälle in der Notaufnahme zunächst fehldiagnostiziert wurden, bei einem Drittel davon noch innerhalb des Zeitfensters für eine lebensrettende Behandlung. Übernommene Einschätzungen, die nicht aktiv hinterfragt wurden, waren ein zentraler Faktor.


Das Problem, das kaum jemand kennt

Kognitive Verzerrungen beschreiben systematische Fehler in eine Richtung. Es gibt aber eine zweite Quelle von Urteilsfehlern, die im medizinischen Kontext fast genauso schwer wiegt und kaum je besprochen wird.

Zwei Psychiater diagnostizieren unabhängig voneinander 426 stationäre Patientinnen und Patienten. Sie stimmen in 50 Prozent der Fälle überein. Bei Mammographien reichte die Rate falsch-positiver Befunde unter erfahrenen Radiologinnen und Radiologen bei denselben Aufnahmen von 1 bis 64 Prozent. Das ist kein Kompetenzunterschied, sondern zufällige Streuung in Urteilen, die eigentlich gleich sein sollten. Kahneman nennt das Noise, Rauschen.

Tageszeit, Erschöpfung, jüngste Erfahrungen, individuelle Risikoeinstellung. All das beeinflusst Urteile, ohne dass die Urteilenden es bemerken. Eine Internistin, die früh morgens beim ersten Patienten mit unklaren Beschwerden einen Handlungsbedarf sieht, den sie drei Stunden und sechs Konsultationen später bei einer Patientin mit fast identischem Beschwerdebild nicht mehr sieht, urteilt nicht schlechter als am Morgen. Sie urteilt anders, weil kognitive Erschöpfung eine reale Einflussgröße auf die Urteilsqualität ist.

Welche Behandlung ein Mensch bekommt, hängt damit nicht nur von seiner Erkrankung ab, sondern auch davon, wer wann wo entscheidet.


Warum das Krankenhaus das Problem nicht abfedert

Kognitive Verzerrungen entstehen im Individuum. Ihre Wirkung wird jedoch durch das System um die Agierenden entweder begrenzt oder verstärkt. In den meisten Krankenhäusern wird sie verstärkt.

Steile Hierarchien sind dabei ein zentraler Faktor. Wenn die Oberärztin eine Verdachtsdiagnose stellt, wird sie im Morgenrapport selten infrage gestellt, auch wenn neue Befunde dagegensprechen. Das ist kein persönliches Versagen, sondern eine strukturelle Konsequenz. Wer widerspricht wem? Wann ist ein Zweifel legitim? Welche Beobachtung ist wichtig genug, um eine etablierte Richtung zu stören? Diese Fragen sind selten explizit geregelt und werden dadurch häufig sozial beantwortet.

Hinzu kommt die Fragmentierung des Krankenhauses selbst. Pflege, Ärzteschaft, Verwaltung, Sozialdienst, Radiologie, Technik. Jede Berufsgruppe arbeitet in eigener Sprache, mit eigenen Routinen und eigenem Selbstverständnis. Eine Pflegekraft bemerkt vielleicht eine Veränderung im Verhalten eines Patienten, die diagnostisch relevant wäre. Eine Assistenzärztin denkt an eine alternative Erklärung, spricht sie aber nicht aus, weil die Richtung bereits gesetzt scheint. Das Wissen ist dann nicht weg, es kommt nur nicht zusammen.

In Teams mit niedriger psychologischer Sicherheit wird dieses Problem noch größer. Psychologische Sicherheit bedeutet, dass Menschen Bedenken und abweichende Einschätzungen äußern können, ohne soziale Sanktionen befürchten zu müssen. Fehlt diese Sicherheit, werden genau jene Beobachtungen zurückgehalten, die ein Urteil korrigieren könnten. Dann wird nicht nur falsch gedacht, sondern es werden auch relevante Beobachtungen seltener angesprochen und so eine frühzeitige Kurskorrektur oder Lernen aus Fehlern verhindert.


Was sich ändern müsste

Wenn Urteilsfehler in der Medizin zu einem erheblichen Teil strukturell bedingt sind, reichen individuelle Bemühungen nicht aus. Es braucht Strukturen, die menschliche Kognition ernst nehmen und gezielt adressieren.

Das beginnt bei einer Frage, die im diagnostischen Prozess systematisch fehlt. Nicht „Was bestätigt diese Diagnose?", sondern „Was würde mich von ihr abbringen?" Die erste Frage stellt sich von selbst, die zweite muss aktiv verankert werden, z. B. in Übergaben, in Teambesprechungen, in der Ausbildung, weil sie gegen den natürlichen Zug des intuitiven Denkens arbeitet.

Es braucht außerdem psychologische Sicherheit als Führungsaufgabe. Eine Oberärztin, die im Morgenrapport sagt, dass sie sich bei einem Fall nicht sicher ist, schafft mehr Raum für kritisches Denken im Team als jede Schulung über kognitive Verzerrungen. Unsicherheit wird dann nicht als Makel behandelt, sondern als realistischer Zustand anspruchsvoller Urteilsbildung.

Und es braucht Bewusstsein für Streuung. Leg denselben Fall unabhängig voneinander zwei Kolleg:innen vor und vergleich die Einschätzungen. Die Variabilität ist fast immer größer als erwartet. Das ist kein Anlass zur Beschämung, sondern der Ausgangspunkt für eine ernsthafte Frage. An welchen Stellen hängt das Urteil weniger von der Sache ab als von den Umständen, unter denen es entsteht?


Was ich daran wichtig finde

Ich forsche und arbeite zu der Frage, wie Menschen unter Unsicherheit urteilen und was gute Urteile von schlechten unterscheidet. Medizin ist für mich eines der eindrücklichsten Felder dafür, weil die Konsequenzen von Urteilsfehlern so unmittelbar spürbar sind und weil der Glaube, Expertise allein schütze davor, so hartnäckig ist.

Was mich daran wirklich beschäftigt, ist nicht, dass Ärztinnen und Ärzte Fehler machen. Das tun alle Menschen, die unter Belastung urteilen müssen. Was mich beschäftigt, ist, dass die Strukturen, in denen sie arbeiten, diese Fehler in vielen Fällen unsichtbar machen, statt sie auffangbar zu machen. Eine falsche Diagnose ist nicht nur ein individueller Irrtum. Sie kann das Ergebnis eines Systems sein, in dem frühe Deutungen zu schnell stabil werden, Zweifel zu wenig Raum bekommen und abweichende Beobachtungen nicht rechtzeitig zusammenfinden.

Ich glaube, dass wir nur in den Grenzen denken können, in denen wir in der Lage sind, uns selbst Fragen zu stellen. Eine Klinik, die keine Räume schafft, in denen Fragen stellbar sind, schließt damit die Räume, in denen Urteile prüfbar sind.


  • Arch, A. E., Weisman, D. C., Coca, S., Nystrom, K. V., Wira, C. R., & Schindler, J. L. (2016). Missed Ischemic Stroke Diagnosis in the Emergency Department by Emergency Medicine and Neurology Services. Stroke47(3), 668–673. https://doi.org/10.1161/STROKEAHA.115.010613

    Berner, E. S., & Graber, M. L. (2008). Overconfidence as a Cause of Diagnostic Error in Medicine. The American Journal of Medicine121(5), S2–S23. https://doi.org/10.1016/j.amjmed.2008.01.001

    Edmondson, A. C. (2003). Speaking Up in the Operating Room: How Team Leaders Promote Learning in Interdisciplinary Action Teams. Journal of Management Studies40(6), 1419–1452. https://doi.org/10.1111/1467-6486.00386

    Elmore, J. G., Wells, C. K., Lee, C. H., Howard, D. H., & Feinstein, A. R. (1994). Variability in Radiologists’ Interpretations of Mammograms. New England Journal of Medicine331(22), 1493–1499. https://doi.org/10.1056/NEJM199412013312206

    Graber, M. L., Franklin, N., & Gordon, R. (2005). Diagnostic Error in Internal Medicine. Archives of Internal Medicine165(13), 1493. https://doi.org/10.1001/archinte.165.13.1493

    Kahneman, D., Sibony, O., & Sunstein, C. R. (2021). Noise: A flaw in human judgment. Little, Brown Spark.

    Kunitomo, K., Harada, T., & Watari, T. (2022). Cognitive biases encountered by physicians in the emergency room. BMC Emergency Medicine22(1), 148. https://doi.org/10.1186/s12873-022-00708-3

    Linder, J. A., Doctor, J. N., Friedberg, M. W., Reyes Nieva, H., Birks, C., Meeker, D., & Fox, C. R. (2014). Time of Day and the Decision to Prescribe Antibiotics. JAMA Internal Medicine174(12), 2029. https://doi.org/10.1001/jamainternmed.2014.5225

    Mamede, S., Van Gog, T., Van Den Berge, K., Rikers, R. M. J. P., Van Saase, J. L. C. M., Van Guldener, C., & Schmidt, H. G. (2010). Effect of Availability Bias and Reflective Reasoning on Diagnostic Accuracy Among Internal Medicine Residents. JAMA304(11), 1198. https://doi.org/10.1001/jama.2010.1276

    Nembhard, I. M., & Edmondson, A. C. (2006). Making it safe: The effects of leader inclusiveness and professional status on psychological safety and improvement efforts in health care teams. Journal of Organizational Behavior27(7), 941–966. https://doi.org/10.1002/job.413

    Okuyama, A., Wagner, C., & Bijnen, B. (2014). Speaking up for patient safety by hospital-based health care professionals: A literature review. BMC Health Services Research14(1), 61. https://doi.org/10.1186/1472-6963-14-61

    See, K. E., Morrison, E. W., Rothman, N. B., & Soll, J. B. (2011). The detrimental effects of power on confidence, advice taking, and accuracy. Organizational Behavior and Human Decision Processes116(2), 272–285. https://doi.org/10.1016/j.obhdp.2011.07.006

    Tost, L. P., Gino, F., & Larrick, R. P. (2012). Power, competitiveness, and advice taking: Why the powerful don’t listen. Organizational Behavior and Human Decision Processes117(1), 53–65. https://doi.org/10.1016/j.obhdp.2011.10.001

Reflexion beginnt mit Dialog.

Wenn du einen Gedanken oder eine Frage teilen möchtest, kontaktiere mich gerne unter kontakt@lucalbrecht.com

Thinking from Scratch

by Luc Albrecht

Exploring how we think, decide and create clarity

Dr. Luc Albrecht

Dr. Luc Albrecht ist Berater für Kritisches Denken und Entscheidungsfindung und ehemaliger Leistungssportler. Er schreibt über Kognitionswissenschaft, menschliches Verhalten, Kommunikation und KI. Besonders spannend findet er die Frage, wie Menschen unter Unsicherheit urteilen, warum Denkfehler so normal sind und was gute Entscheidungen ausmacht.

https://www.lucalbrecht.com/de/ueber-mich
Weiter
Weiter

Die unsichtbare Ebene der Unternehmensnachfolge