Neue Software für große Datensätze

Neue Software für große Datensätze
Visualisierung von Genexpressionsmustern muriner Gehirnzellen mit Scanpy (© Helmholtz Zentrum München)

Die Software Scanpy verarbeitet riesige Mengen an Einzelzelldaten. Damit ist sie ein Kandidat für die Auswertung des Human Cell Atlas Projekts.

  • Datum:
    12.02.2018
  • Autor:
    S. Opitz (mh/ktg)
  • Quelle:
    Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt
„Es geht um die Analyse von Genexpressionsdaten* zahlreicher einzelner Zellen“, erklärt Erstautor Alex Wolf vom Institute of Computational Biology (ICB) des Helmholtz Zentrums München. Gemeinsam mit seinem Kollegen Philipp Angerer hat er Scanpy entwickelt. „Die neue technische Möglichkeiten generieren um Größenordnungen mehr Daten mit dementsprechend höherer Information“, schildert Theis. „Allerdings war die historisch gewachsene Software-Infrastruktur zur Genexpressionsanalyse nicht auf die neuen Herausforderungen ausgelegt.“ Entsprechend groß sei hier der Bedarf nach neuen Analysemethoden.

Im Rennen für den Human Cell Atlas

Auch ein großes internationales Forschungsvorhaben könnte von der Software profitieren. Im ‚Human Cell Atlas‘ tragen zahlreiche internationale Wissenschaftler eine Referenzdatenbank zusammen, in der die Genaktivität aller menschlichen Zelltypen erfasst ist. „Für dieses Projekt oder auch bei der immer häufiger werdenden Zusammenlegung von bestehenden Datensätzen ist es wichtig, eine skalierbare Software zu haben“, so Theis. Entsprechend sei Scanpy aktuell in der Auswahl für die Analysesoftware des Human Cell Atlas (https://www.humancellatlas.org).

„Mit Scanpy publizieren wir die erste Software, die eine umfängliche Analyse großer Genexpressionsdatensätze mit einem breiten Spektrum aus Methoden des maschinellen Lernens und Statistik erlaubt“, beschreibt Alex Wolf den Fortschritt. „Bereits jetzt wird die Software in diversen Gruppen weltweit eingesetzt, insbesondere auch am Broad Institute von Harvard und dem Massachusetts Institute of Technology.“

Neue Wege in der Programmierung

Während entsprechende Biostatistik-Software traditionell in der Programmiersprache R geschrieben wurde, basiert Scanpy auf der Sprache Python, die die Machine Learning Community dominiert. Neu ist zudem, dass graphbasierte Algorithmen das Herz von Scanpy bilden. Anstatt Zellen wie bisher üblich als Punkte im Koordinatensystem des Genexpressionsraums zu betrachten, verwenden die Algorithmen ein graphartiges Koordinatensystem. Das heißt, anstatt eine Zelle mit dem Expressionswert einiger Tausend Gene zu charakterisieren, wird sie einfach durch die Angabe ihrer nächsten Nachbarn charakterisiert – vergleichbar mit Verbindungen in sozialen Netzwerken. Wenn es zum Beispiel um die Identifikation von Zelltypen geht, verwendet Scanpy also die gleichen Algorithmen wie Facebook zur Identifikation von Communities.

Big Data in der Radiologie

Das Team um Alex Wolf konnte erst kürzlich einen der vorderen Plätze beim Data Science Bowl belegen, einem der weltweit höchstdotierten Wettbewerbe zum Thema Big Data. In ihrem Beitrag hatte das Team einen Algorithmus programmiert, der binnen weniger Millisekunden Lungenkrebs auf Basis von 300 Schichten eines dreidimensionalen Computertomographie (CT)-Scans erkennt – ein Vorgang für den ein Radiologe im schlechtesten Fall mehrere Stunden benötigen würde.