ECR 2023 – Relevante Leistungsmerkmale einer Künstlichen Intelligenz
Welche Leistungsmerkmale einer KI für eine radiologische Abteilung relevant sind, richtet sich nach der Fragestellung und der Patientenpopulation.
-
Präsentationstag:02.03.2023 1 Kommentare
-
Autor:biho/ktg
-
Sprecher:Daniel Pinto dos Santos, Köln
-
Quelle:ECR 2023
Sensitivität und Spezifität sind nicht das Maß aller Dinge
Sensitivität und Spezifität zählen mit zu den wichtigsten KI-Leistungsmerkmalen. „Ob eine Sensitivität und Spezifität von 90 Prozent gut ist, hängt von der Prävalenz ab“, sagte Daniel Pinto dos Santos, Köln. Er erläuterte die Konzepte der verschiedenen Leistungsmerkmale und erklärte, wo die Fallstricke liegen.
Bewertungsmetrik |
Bedeutung |
Erläuterung |
Sensitivität |
Richtig-Positiv-Rate (in KI-Publikationen oft als „Recall” bezeichnet) |
Wie viele Personen sind korrekt als „krank“ eingestuft worden? |
Spezifität |
Richtig-Negativ-Rate |
Wie viele Personen sind korrekt als „gesund“ eingestuft worden? |
Prävalenz |
Krankheitshäufigkeit |
Je häufiger die Krankheit in der Bevölkerung oder einem bestimmten Teil der Bevölkerung vorkommt, desto höher ist die Prävalenz (Beispiel: 5/1.000 = 0,5 % Prävalenz) |
Positiver Vorhersagewert (PPV) |
Genauigkeit |
Wie viele Personen mit einem positiven Testergebnis sind tatsächlich krank? |
„Der positive Vorhersagewert zeigt, ob sich die KI in der klinischen Routine bewährt“, so Pinto dos Santos. Zur Veranschaulichung verwies er auf eine Studie, in der ein Deep-Learning-Algorithmus zur Erkennung von Hirnblutungen eingesetzt wurde. Die KI erzielte eine Sensitivität und Spezifität von über 90 % (Chilamkurthy et al. 2018). Aufgrund der sehr niedrigen Prävalenz in der Patientenpopulation betrug der positive Vorhersagewert 31 %. (Dewey et al. 2019). „Das bedeutet, dass zwei Drittel der Patienten einen falsch positiven Befund erhielten“, sagte Pinto dos Santos. Die KI ist damit nicht für einen effizienten klinischen Workflow einsetzbar.
Zweifelhafter Vergleich: KI-Genauigkeit vs. durchschnittliche Befunder:innen-Genauigkeit
Die ROC-AUC (Receiver Operating Characteristics - Fläche unter der Kurve) beschreibt die Genauigkeit eines Tests oder einer Untersuchung. Häufig wird diese Kennzahl verwendet, um die KI-Genauigkeit der durchschnittlichen Genauigkeit menschlicher Befunder:innen gegenüberzustellen. Dies ergibt ein verzerrtes Bild, so Pinto dos Santos.
Der Trainingseffekt der KI spiegelt sich in einer ROC-Kurve wider. Eine hohe Sensitivität und Spezifität zeigt sich in einer hohen AUC (nahe 1). „Ein menschlicher Befunder hat hingegen nur einen Sensitivitäts- und einen Spezifitätswert“, sagte er. Die Leistung der menschlichen Befundung kann besser, gleich oder schlechter als die KI sein, während der Durchschnitt verschiedener Befunder:innen fast immer unter der KI-Leistung liegt (siehe Abbildung).
Um herauszufinden, welche Leistungsmerkmale für eine radiologische Abteilung geeignet sind, empfahl Pinto dos Santos eine ausführliche Publikation – „wirklich gut zu lesen, anschauliche Flussdiagramme“ – mit allerdings über 200 Seiten (Meier-Hein et al. 2023).
Schlussfolgerung
Die Auswahl relevanter KI-Leistungsmerkmale sollte sich an den Zielen in der entsprechenden radiologischen Abteilung orientieren. Häufig sind positiver Vorhersagewert und Sensitivität für den klinischen Wert einer KI entscheidend.
Referenzen
Chilamkurthy S et al. Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study. Lancet. 2018;392(10162):2388-2396.
Dewey M, Schlattmann P. Deep learning and medical diagnosis. Lancet. 2019;394(10210):1710-1711.
Maier-Hein L, Reinke A et al. Metrics reloaded: Pitfalls and recommendations for image analysis validation. arXiv:2206.01653 [cs.CV]. 2023