Grafik

apheris AI: Verteilte Daten analysieren und dabei den Datenschutz wahren

20.11.2020

Eine kollaborative Auswertung verteilter sensibler Daten für die Forschung und den Datenschutz – wie geht das zusammen? Das Berliner Deep-Tech-Start-up apheris AI zeigt, wie es geht!

Das Deep-Tech-Unternehmen apheris AI ging vor einem Jahr mit zwei Visionen an den Start, die bislang eher unvereinbar schienen: auf verschiedene Institutionen verteilte Informationen gemeinsam für die Forschung zu nutzen und dabei gleichzeitig effektiv und angriffssicher Datenschutz und geistiges Eigentum zu wahren. Das Angebot an forschende Unternehmen ist ein „Datenschutz bewahrendes Daten-Ökosystem“.

Zum Hintergrund: Die Basis von Forschung und Innovation bilden heute immer mehr Daten, Daten, Daten. Um den oft komplexen Datensätzen nutzbringende Erkenntnisse zu entlocken, erfolgen die Analysen in der Regel auf Basis von Künstlicher Intelligenz und Maschinellem Lernen.

Um Modelle des Machine Learning zu entwickeln, sind möglichst große und vielfältige Datensätze erforderlich. Denn das künstliche System trainiert mit den Daten, mit denen man es speist, und generiert daraus Erfahrungswissen: Muster, Gesetzmäßigkeiten, Trends, Statistiken. Dies geschieht mit Hilfe von Algorithmen. Qualität und Erfolg der Machine-Learning-Algorithmen sind dabei abhängig von den zur Verfügung stehenden relevanten Trainingsdaten.

Potenzial für Forschung und Innovation freilegen

Das Problem: Ob es sich um sensible Patient*innendaten für klinische Studien oder für biomedizinische Forschung in Unternehmen handelt – Wissenschaftler*innen und Unternehmen können datenschutzrechtlich oft nur mit ihren eigenen, manchmal schmalen Datensätzen arbeiten. Und diese sind, separat betrachtet, oft nicht aussagekräftig genug.

„Zu oft werden kritische Daten in Silos weggeschlossen oder aus Datenschutz- oder Sicherheitsbedenken nicht gemeinsam genutzt“, sagt Robin Röhm, Mitbegründer und CEO des Berliner Start-ups apheris AI. „Das verhindert wertvolle Erkenntnisse und neue Lösungen. Eine gemeinsame Datenauswertung verschiedener Organisationen ist essentiell für die Bekämpfung der größten Probleme unserer Zeit, einschließlich der Corona-Pandemie.“

Die Macher von apheris AI sind überzeugt, dass die Zusammenarbeit von Unternehmen an dieser Stelle wertvolles Potenzial für Forschung und Innovation freilegen kann.

Machine Learning für die Arzneimittelbranche

Besonders schwierig ist die gemeinsame Analyse von verteilten Daten im Gesundheitssektor. Denn hier handelt es sich um teils hochsensible Patient*inneninformationen, die unter strengem Datenschutz stehen. „Dennoch sind diese Daten für die Wissenschaft notwendig, um medizinische Lösungen zu entwickeln und damit Patient*innen zu helfen“, erklärt Röhm. „Wir wollen Institutionen und Firmen dabei helfen, gemeinsam ihre Daten auszuwerten, ohne dabei die Privatheit der Daten zu verletzen.“

Zugute kommen könnte dies zum Beispiel der Arzneimittelforschung. Hierbei hat die Entwicklung von Machine-Learning-Modellen ein großes Anwendungsspektrum: vom Generieren neuartiger Molekularstrukturen über die Vorhersage von Krankheiten oder toxikologischen Wirkungen bis hin zur Analyse medizinischer Bildgebung oder zur Wechselwirkung von Medikamenten.

Datenaustausch: dezentralisiert und föderiert

Datenschutz in Wissenschaft und Forschung basiert bislang häufig auf der Anonymisierung von Patient*innendaten. Dass hierbei jeder Personenbezug aus den Daten gestrichen wird, reduziert jedoch auch die Aussagekraft der jeweiligen Daten. Röhm sieht zudem Sicherheitslücken: „Der Angriffsvektor ist bei anonymisierten Daten relativ groß. Durch Daten-Matching lassen sich einzelne Daten oft durchaus reidentifizieren.“

Mann lächelt in die Kamera

Robin Röhm

Apheris AI hat eine Alternative zur klassischen Anonymisierung von Daten entwickelt: Nicht die Patient*innendaten selbst werden anonymisiert, sondern deren gemeinsame Analyse. Hierfür hat das Start-up eine Technologie entwickelt, die dezentrale Datenverarbeitung, föderiertes Lernen und kryptografische Protokolle miteinander kombiniert.

Wahrung des geistigen Eigentums und der Privatsphäre

Die Methodik einer solchen kollaborativen wissenschaftlichen Analyse von Daten funktioniert so: Daten werden für die Analyse nicht an zentraler Stelle zusammengeführt, sondern die Analyse der verteilten Daten erfolgt dezentralisiert. Die Daten, die für das Trainieren der Machine-Learning-Algorithmen nutzbar gemacht werden, verbleiben lokal und im Originalzustand – unter Wahrung des geistigen Eigentums und der Privatsphäre. Das heißt: Die beteiligten Firmen bekommen die Daten der anderen niemals zu Gesicht.

Vereinfacht erklärt Robin Röhm den Lern-Prozess der Algorithmen so: „Ein*e Wissenschaftler*in, der oder die verteilte Daten auswerten möchte, sendet seine Rechenanfrage an die entsprechenden Institutionen. Dort wird lokal in deren Umgebung gerechnet. Die Daten werden nicht transferiert und bleiben unter der vollen Kontrolle der entsprechenden Institutionen. Nur die Ergebnisse der Berechnungen, nämlich Muster und Trends, werden verschlüsselt zurückgesandt.“ Das heißt: Alle Komponenten der kollaborativen Analyse bewahren ihre Autonomie und ihr lokales Schema. So entsteht über Machine Learning nach und nach ein statistisches Modell, welches immer weiter mit den verteilten Datensätzen trainiert wird. Der Algorithmus wird mit jedem Training etwas besser.

Differential-Privacy: Sicherheit im Algorithmus selbst

Was nun entscheidend für den Schutz der Daten ist: Über kryptografische und mathematische Techniken wie Differential-Privacy wird sichergestellt, dass sich aus dem Ergebnis der Berechnungen niemals einzelne Datenpunkte rekonstruieren lassen. „Unsere Kernidee: Wir bringen die Sicherheit nicht in die Daten, sondern in den Algorithmus“, erklärt Röhm.

Dem Algorithmus wird im Zuge seines statistischen Lernprozesses jedes Mal „etwas Zufall, etwas Rauschen“ hinzugefügt, sodass die Rückführbarkeit auf einzelne Datenpunkte aufgelöst wird. Die Aussagekraft des Algorithmus wird dabei nicht beeinträchtigt. „Damit haben wir einen doppelten Vorteil. Zum einen ist die Sicherheit auf der Ebene des Algorithmus viel größer, zum anderen können wir die Algorithmen besser trainieren, weil sie mit den Originaldaten operieren.“

Apheris AI ist „Digitales Start-up des Jahres 2020“

Im Ausbau ihres Datenschutz bewahrenden Daten-Ökosystems sehen die Gründer diverse Möglichkeiten, Unternehmen insbesondere aus der Pharma- und Chemiebranche neue datengesteuerte Geschäftsmodelle zu eröffnen. Bei der Zusammenarbeit der Firmen sind durch die Kombinatorik der gemeinsam ausgewerteten Daten unterschiedliche Wege der Monetarisierung denkbar.

Apheris AI wurde von Robin Röhm und Dr. Michael Höh 2019 gegründet und hat insgesamt mehr als 3,7 Millionen Euro eingeworben, darunter die StartUpSecure-Förderung des Bundesministeriums für Bildung und Forschung in Höhe von 750.000 Euro und die Seed-Finanzierung von hochrangigen Investierenden in Höhe von 2,5 Millionen Euro. Mittlerweile besteht das Deep-Tech-Unternehmen aus einem Team von 14 Datenwissenschaftler*innen und Ingenieur*innen. Apheris AI arbeitet nach eigenen Angaben bereits profitabel mit Pharma- und Chemie-Unternehmen zusammen. Erst kürzlich wählte die Jury des Bundesministeriums für Wirtschaft und Energie das junge Unternehmen zum „Digitalen Start-up des Jahres 2020“.