KI trainieren und dabei Datenschutz gewährleisten
Federated Learning und Sicheres Aggregieren: Kombination mehrerer Sicherheitsschritte hilft patientenbezogene Daten zu schützen.
-
Datum:03.06.2021
-
Autor:Lisa Pietrzyk (mh/ktg)
-
Quelle:Technische Universität München
Um Algorithmen an möglichst vielen Daten zu trainieren, ist es gängige Praxis, persönliche Daten von PatientInnen zwischen Kliniken auszutauschen, indem eine Kopie der Daten an die Kliniken gesendet wird, in denen der Algorithmus trainiert wird. Zum Datenschutz werden dabei zumeist die Verfahren der Anonymisierung und Pseudonymisierung angewendet – ein Vorgehen, das auch in der Kritik steht. „Es hat sich in der Vergangenheit mehrfach gezeigt, dass diese Vorgehensweisen keinen ausreichenden Schutz für die Gesundheitsdaten von Patientinnen und Patienten bieten“, sagt Daniel Rückert, Alexander-von-Humboldt-Professor für Artificial Intelligence in Healthcare and Medicine an der TUM.
Datenschutz durch kombinierte Verfahren
Aus diesem Grund hat ein interdisziplinäres Team der TU München gemeinsam mit weiteren Forschenden eine Kombination an Privatsphäre-wahrenden Verfahren für die KI-gestützte Diagnostik an radiologischen Bilddaten entwickelt. Das erste auf diese Weise trainierte Deep-Learning-Algorithmus dient dazu, pädiatrische Pneumonien anhand von Röntgenbildern zu klassifizieren. „Wir haben unsere Modelle gegen spezialisierte Radiologen getestet. Sie wiesen zum Teil eine vergleichbare oder höhere Genauigkeit in der Diagnose verschiedener Arten von Lungenentzündungen bei Kindern auf“, so Prof. Marcus Makowski, Institut für Radiologie am Klinikum rechts der Isar.
Die patientenbezogenen Daten bleiben vor Ort
„Damit die Daten der Patientinnen und Patienten sicher sind, sollten sie die jeweilige Klinik nie verlassen“, sagt Projektleiter Georgios Kaissis vom Institute for AI and Informatics in Medicine der TU München. „Wir haben für unseren Algorithmus das sogenannte Federated Learning verwendet, bei dem nicht die Daten geteilt werden, sondern der Deep-Learning Algorithmus. Unsere Modelle wurden in der jeweiligen Klinik mit den Daten vor Ort trainiert und danach wieder zu uns zurückgesendet. Die Besitzer mussten ihre Daten also nicht herausgeben und haben die komplette Kontrolle darüber behalten“, erklärt Erstautor Alexander Ziller, Forscher am Institut für Radiologie.
Damit sich keine Rückschlüsse auf die Daten einer bestimmten Institution ziehen lassen, mit denen der Algorithmus trainiert wurde, arbeitete das Team zusätzlich mit der sogenannten 'sicheren Aggregierung': „Wir haben die Algorithmen verschlüsselt zusammengeführt und erst entschlüsselt, nachdem sie mit den Daten aller beteiligten Institutionen trainiert waren“, erklärt Kaissis.
Zur Originalpublikation "End-to-end privacy preserving deep learning on multi-institutional medical imaging" von Georgios Kaissis et al. in Nature Machine Intelligence