CeMM: Artificial Intelligence interpretierbar gemacht: Maschinelles Lernen auf biologischen Netzwerken

Forscher am CeMM Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften haben eine neue Methode entwickelt, um die Funktion von Zellen im Computer abzubilden und digital zu analysieren. Die neue Methode kombiniert „Deep Learning“ (maschinelles Lernen auf tiefen neuronalen Netzen) mit der Interpretierbarkeit biologischer Netzwerke. Mit dieser Methode können riesige Datensätze aus der Hochdurchsatz-Sequenzierung von einzelnen Zellen effektiv analysiert und interpretiert werden. Die Studie leistet außerdem einen wichtigen Beitrag zur Interpretierbarkeit von Artificial Intelligence (AI), sodass Menschen verständlich nachvollziehen können, warum ein Computermodell auf eine bestimmte Art und Weise entscheidet. Diese Art von Interpretierbarkeit ist zentral für sichere und vertrauensvolle Anwendungen von AI – nicht nur in Biologie und Medizin. Die Studie wurde in der renommierten Fachzeitschrift Genome Biology veröffentlicht.

Computersysteme, die wesentliche Aspekte menschlicher Problemlösung nachahmen, werden als künstliche Intelligenz oder Artificial Intelligence (AI) bezeichnet. Die AI-Forschung hat in den letzten Jahren massive Fortschritte gemacht. Vor allem die Technologie des „Deep Learning“ ermöglichte bahnbrechende Erfolge, um Beispiel bei selbstfahrenden Autos, Strategiespielen wie Go und Schach, und ersten vielversprechende Anwendungen in der medizinischen Diagnostik. Deep Learning verwendet künstliche neuronale Netze. Das sind mathematische Modelle, die basierend auf Trainingsdaten immer weiter adaptiert werden, bis sie „gelernt“ haben, für einen gegebenen Datensatz die passende Lösung zu berechnen.

In der Biologie hat sich Deep Learning als leistungsstarke Methode zur Vorhersage von biologischen Eigenschaften oder „Phänotypen“ etabliert (also von beobachtbaren Merkmalen von Zellen oder eines Individuums, beispielsweise anhand von Genomdaten). Allerdings ist Deep Learning normalerweise eine „Black Box“-Methode: Mit ausreichend Trainingsdaten können diese künstlichen neuronale Netze zum Beispiel lernen, aus den aktiven Genen den Zelltyp oder aus DNA-Sequenzdaten die Struktur von Proteinen vorherzusagen. Sie können jedoch die erlernten Muster nicht auf verständliche Weise erklären. Aus diesem Grund hat Deep Learning bisher wenig dazu beigetragen, unser Verständnis der molekularen Funktionen unserer Zellen zu verbessern.

Um diesen Mangel an Interpretierbarkeit zu beheben, verfolgten die CeMM-Forscher Nikolaus Fortelny und Christoph Bock die Idee, Deep Learning direkt auf biologischen Netzwerken durchzuführen – statt auf den sonst üblichen künstlichen neuronalen Netzwerken mit ihrer schematischen und schwer interpretierbaren Struktur. Die beiden Forscher etablierten dafür sogenannte wissensbasierte neuronale Netze („knowlege-primed neural networks“, KPNNs), die auf unserem Wissen über Signalwege und genregulatorische Netzwerken aufbauen. In KPNNs entspricht jeder Knoten einem bestimmten Protein oder Gen, und jede Kante hat eine mechanistische biologische Interpretation (z. B. Protein A reguliert die Expression von Gen B). Die KPNN-Methode zur Analyse der Genregulation und der Signalprozessierung in Zellen wird in einer neuen Studie beschrieben, die in Genome Biology veröffentlicht wurde.

Indem KPNNs den Deep-Learning-Algorithmus dazu bringen, ausschließlich vom biologischen Netzwerk vorgegebenen biologische Signalwege und Regulationsprozesse zu verwenden, bilden sie eine Brücke zwischen der Vorhersagekraft von Deep Learning und unserem Verständnis biologischer Systeme. Dadurch liefert der neue Ansatz relevante Einblicke in die biologischen Abläufe in den untersuchten Systemen bei gleichzeitig hoher Vorhersageleistung. Wesentliche technische Neuerungen dieser Deep-Learning-Methode betreffen die Stabilisierung der Knotengewichte bei Redundanz im Netzwerk, quantitative Interpretierbarkeit der Knotengewichte und Anpassungen an die spezielle Struktur biologischer Netzwerke.

Die CeMM-Forscher demonstrierten ihre neue Methode anhand von großen Einzelzelldatensätzen, einschließlich eines Datensatzes mit der Gen-Aktivität von 483.084 Immunzellen, der von der weltweiten Human Cell Atlas Initiative veröffentlicht wurde. In diesem Datensatz entdeckten die Wissenschaftler eine unerwartete Vielfalt in den regulatorischen Netzwerken, insbesondere im Vergleich zwischen den Immunzellen aus dem Knochenmark und jenen aus Nabelschnurblut.

Die KPNN-Methode kombiniert die Vorhersagekraft von Deep Learning, mit der Interpretierbarkeit biologischer Netzwerke. KPNNs sind besonders für die Analyse von EinzelzellRNA-Sequenzierungsdaten geeignet. Darüber hinaus ist die neue Methode auf viele andere Bereiche der biologischen und biomedizinischen Forschung übertragbar, in denen relevantes Vorwissen als Netzwerke dargestellt werden kann.

Die von KPNNs erhaltenen Vorhersagen und biologischen Erkenntnisse könnten in Zukunft besonders hilfreich sein, um die Zellsignale und die Genregulation in gesunden und kranken Zellen zu analysieren, um neue Zielproteine für Medikamente zu identifizieren und um überprüfbare biologische Hypothesen aus Einzelzell-RNA-Sequenzierungsdaten abzuleiten. Die Studie zeigt darüber hinaus, wie Fortschritte der AI-Forschung und insbesondere Deep-LearningMethoden für die Analyse von biologischen Mechanismen nutzbar und interpretierbar gemacht werden können.

Die Studie

Die Studie “Knowledge-primed neural networks enable biologically interpretable deep learning on single-cell sequencing data” wurde am 3. August 2020 in Genome Biology veröffentlicht. DOI: 10.1186/s13059-020-02100-5

Autoren: Nikolaus Fortelny und Christoph Bock

Fördermittel:

Die Studie wurde mit Unterstützung eines New Frontiers Group Award der ÖAW, Förderung aus Spezialforschungsbereich des Österreichischen Wissenschaftsfonds (FWF SFB F 6102-B21) sowie Forschungsgeldern des Europäischen Forschungsrats (ERC) im Rahmen des Forschungs- und Innovationsprogramms „Horizont 2020“ der Europäischen Union finanziert (Fördervereinbarung Nr. 679146). Nikolaus Fortelny wurde durch ein Stipendium der Europäischen Organisation für Molekularbiologie unterstützt (EMBO ALTF 241-2017).

Christoph Bock

Christoph Bock ist seit 2012 Principal Investigator bei CeMM. Er betreibt interdisziplinäre Forschung, um die epigenetischen und genregulatorischen Grundlagen von Krebs zu verstehen und die Präzisionsmedizin mit Genomics-Technologien voranzutreiben. Seine Forschungsgruppe kombiniert experimentelle Biologie (Hochdurchsatz-Sequenzierung, Epigenetik, CRISPRScreening, synthetische Biologie) mit Informatik (Bioinformatik, maschinelles Lernen, künstliche Intelligenz). Er ist außerdem Gastprofessor an der Medizinischen Universität Wien, wissenschaftlicher Koordinator der Biomedical Sequencing Facility (BSF) am CeMM, und Schlüsselforscher am Ludwig Boltzmann Institute for Rare and Undiagnosed Diseases. Er koordiniert ein EU-Projekt Horizont 2020 zur Einzelzellanalyse menschlicher Organoide als Beitrag zum menschlichen Zellatlas. Christoph Bock ist gewähltes Mitglied der Young Academy der ÖAW und erhielt bedeutende Forschungspreise, darunter die Otto-Hahn-Medaille der Max-Planck-Gesellschaft (2009), ein ERC Starting Grant (2016-2021) und den Overton-Preis von der International Society of Computational Biology (2017)

CeMM

Das CeMM Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften ist eine internationale, unabhängige und interdisziplinäre Forschungseinrichtung für molekulare Medizin unter der wissenschaftlichen Leitung von Giulio Superti-Furga. Das CeMM orientiert sich an den medizinischen Erfordernissen und integriert Grundlagenforschung sowie klinische Expertise, um innovative diagnostische und therapeutische Ansätze für eine Präzisionsmedizin zu entwickeln. Die Forschungsschwerpunkte sind Krebs, Entzündungen, Stoffwechsel- und Immunstörungen sowie seltene Erkrankungen. Das Forschungsgebäude des Instituts befindet sich am Campus der Medizinischen Universität und des Allgemeinen Krankenhauses Wien. www.cemm.oeaw.ac.at 

Die inhaltliche Verantwortung für diesen Beitrag liegt ausschließlich beim Aussender. Beiträge können Vorhersagen enthalten, die auf Erwartungen an zukünftige Ereignisse beruhen, die zur Zeit der Erstellung des Beitrags in Aussicht standen. Bitte verlassen Sie sich nicht auf diese zukunftsgerichteten Aussagen.

Als Life Sciences Organisation mit Sitz in Wien möchten Sie, dass LISAvienna auf Ihre News und Events hinweist? Senden Sie uns einfach Ihre Beiträge an news(at)lisavienna.at.