RöKo 2023 – Vergleich zweier KI-Tools im Lungenkrebs-Screening
Zwei im Lungenkrebs-Screening in der Hanse-Studie eingesetzte KI-Tools liefern signifikant unterschiedliche Klassifikationsergebnisse nach Lung-RADS®. Daher ist eine radiologische Interaktion weiterhin unverzichtbar.
-
Präsentationstag:17.05.2023 0 Kommentare
-
Autor:mh/ktg
-
Sprecher:Rimma Kondrashova, MH Hannover
-
Quelle:RöKo 2023
Große, multizentrische Screening-Studien haben gezeigt: Ein Lungenkrebs-Screening mit Low-Dose-CT kann dazu beitragen, die Lungenkrebs-assoziierte Sterblichkeit zu senken. Die Hanse-Studie ist die zentrale Studie für die Implementierung eines solchen Screenings in Deutschland.
Von einem Vergleich zweier KI-Tools, die beide in der Hanse-Studie verwendet werden, berichtete Rimma Kondrashova, MH Hannover, beim RöKo 2023: „Werden unterschiedliche KI-Tools eingesetzt, müssen wir die Unterschiede zwischen ihnen möglichst genau kennen“, so Kondrashova. Denn wenn ein Screeningteilnehmer je nach KI-Tool unterschiedlich klassifiziert wird, kann das Konsequenzen für die weitere Versorgung haben.
Methoden
Mit ihren Kolleg:innen untersuchte Kondrashova, wie zwei in der Hanse-Studie eingesetzte KI-Tools sich auf die Klassifizierung nach Lung-RADS® auswirkten. Detektion und Quantifizierung – ebenfalls potenzielle Domänen für aktuelle KI-Tools – spielten in ihrer Studie keine Rolle.
Ausgangsmaterial waren 946 randomisiert ausgewählte Low-Dose-CTs aus der Hanse-Studie.
Untersucht wurde die prozentuale Übereinstimmung der beiden KI-Tools untereinander sowie der Vergleich mit den Ergebnissen radiologischer Befunder:innen.
Ergebnisse
Die Messung von Volumina und Durchmesser der Lungenknötchen zeigten signifikante Unterschiede zwischen den beiden untersuchten KI-Tools.
in 38% der Fälle kamen die beiden KI-Tools beim selben Screenings-Teilnehmer zur einer divergierenden Lung-RADS®-Klassifizierung.
Für abschließend von den Befunder:innen als Lung-RADS® < 3 klassifizierte Untersuchungen führten die KI-Tools häufig zu einer falsch-positiven Einstufung von Lungenknötchen (34% Tool 1 und 47% Tool 2).
Eines der beiden KI-Tools neigte dazu, die Lungenherde als zu groß einzuschätzen, die andere KI als zu klein.
In 40% der Fälle änderte ein radiologische/r Befunder:in die von der KI vergebene Klassifizierung.
Häufigster Grund für die zu korrigierende Klassifizierung war eine fehlerhafte Volumetrie.
Fazit
Angesichts der aktuellen Performance zweier KI-Tools im Lungenkrebs-Screening der Hanse-Studie ist eine radiologische Interaktion für visuelle Inspektion und Qualitätskontrolle noch unverzichtbar, so das Fazit von Kondrashova.
Für die erfolgreiche Einführung eines künftigen Lungenkrebs-Screeningprogramms braucht es
- gute Performance und hohe Übereinstimmung der verwendeten KI-Tools, und
- ein angemessenes Training der Anwender:innen.