KI und Datenschutz
Forschung: Daten-Schwarm mit Charme
Das Deutsche Zentrum für Neurodegenerative Erkrankungen will das Potenzial der Künstlichen Intelligenz für die Alzheimerforschung nutzen. Das Swarm Learning könnte der Schlüssel dafür sein.
Veröffentlicht:Bonn. Große Datenmengen versprechen der Wissenschaft und Forschung erhebliches Potenzial. Gleichzeitig nehmen die rechtlichen Anforderungen an den Schutz der sensiblen Gesundheitsdaten zu. Ohne Unterstützung durch Tools der Künstlichen Intelligenz (KI) wird es kaum mehr vorstellbar sein, diese Datenmengen systematisiert aufzubereiten und für das Trainieren der assistiven KI zu nutzen.
Das „Swarm Learning“ könnte eine Technik sein, die den Spagat zwischen Big Data und anspruchsvollem Datenschutz zu bewältigen hilft. Davon ist zumindest Professor Joachim Schultze, Direktor für Systemmedizin am Deutsche Zentrum für Neurodegenerative Erkrankungen (DZNE) überzeugt. „Swarm Learning hat das Potenzial eines echten Gamechangers. Künftig wollen wir diese Technologie auf Alzheimer und andere neurodegenerative Erkrankungen anwenden“, so Schultze.
Sicherer als Federated Learning
Schultze ist Mitautor der jüngst in „Nature“ erschienenen Studie „Swarm Learning for decentralized and confidential clinical machine learning“ (Nature 2021; online 26. Mai). In einem Pressebriefing des Science Media Center erläuterte der Professor vom Life & Medical Sciences-Institut (LIMES) der Universität Bonn, dass Swarm Learning aus datenschutzrechtlicher Sicht noch sicherer sei als das Federated Learning.
Beim föderierten Lernen handle es sich um eine Methode zum Anlernen eines KI-Modells, bei der die zum Trainieren verwendeten Daten bei den „Besitzern“ blieben. Eine zentrale Instanz stelle den anzulernenden KI-Algorithmus bereit, dieser werde lokal da angelernt, wo die Daten bereits liegen. Parameter der so angelernten lokalen KI-Modelle würden an die zentrale Instanz zurückgesendet, wo sie zur Aktualisierung des gemeinschaftlichen KI-Modells verwendet werden. Aktualisierte Parameter würden dann an die lokalen Instanzen zurückgeschickt und das dortige Modell werde weitertrainiert. Der Vorgang kann laut Schultze wiederholt werden, bis eine gewisse Anzahl Wiederholungen oder ein Schwellenwert in der Performance des Modells erreicht wurde. So erhalte die zentrale Instanz nie Zugriff auf die zum Trainieren verwendeten Daten selbst.
Zentrale Instanz als Fort Knox
Knackpunkt beim föderierten Lernen sei eine zentrale Instanz, die letztendlich mit das Ganze orchestriere. „Das ist insofern dann gut, wenn die zentrale Instanz glaubwürdig und vertrauenswürdig ist. Wenn sie es nicht wäre, dann hätte man da ein Problem. Und wir haben uns mit der Frage beschäftigt: Kann man diese zentrale Instanz, die auch die Sicherheit und die Regeln und so weiter alles in diesem Federated Learning orchestriert, kann man die nicht auch noch sicherer machen?“
Mit einem industrieseitigen Technologiepartner sei man dann zu dem Schluss gekommen, „dass man es in einer möglichst komplett demokratisierten Weise macht, also deswegen dieses Schwarm-Bild, und diese zentrale Instanz vielleicht auch noch ersetzt.“ Das habe aber den Nachteil, dass die Sicherheit damit möglicherweise niedriger werde. Die müsse dann aber technisch dargestellt werden, laute die Herausforderung.
Schultze erläutert das Verfahren: „Das wird in dem Swarm Learning durch Smart Contracts und eine Blockchain – nicht vergleichbar mit der Bitcoin Blockchain, sondern einer Privacy Preserving Blockchain – gemacht, also technisch so dargestellt, dass nur Leute oder Institutionen in dem Schwarm mitmachen können, die vorher diesen Contract abgeschlossen haben.“ Das passiere nicht im öffentlichen Raum, sondern sicherlich immer in einer Domäne wie jetzt in der Medizin auf der Ebene der Krankenhäuser oder Institute und nicht auf der End-User-Ebene. Diese technologische Veränderung haben die Forscher getestet.
Schultze und sein Team haben im Rahmen ihrer Arbeit KI-Algorithmen darauf trainiert, in dezentral gelagerten Datenbeständen die Krankheitsbilder Akute Myeloische Leukämie, Akute Lymphoblastische Leukämie, Tuberkulose sowie COVID-19 zu erkennen. Die Daten umfassten insgesamt mehr als 16.000 Transkriptome sowie 100.000 Röntgenbilder des Brustkorbs.
Schultzes Fazit: „Medizinische Forschungsdaten sind ein Schatz. Sie können entscheidend dazu beitragen, personalisierte Therapien zu entwickeln, die passgenauer als herkömmliche Behandlungen auf jeden Einzelnen zugeschnitten sind.“