Computergestützte Modellierung biologischer Prozesse

Forschungsbericht (importiert) 2009 - Max-Planck-Institut für Biophysik

Autoren
Wierling, Christoph; Herwig, Ralf
Abteilungen
Analyse des Vertebratengenoms (Prof. Dr. Hans Lehrach)
MPI für molekulare Genetik, Berlin
Zusammenfassung
Die Nachbildung biologischer Prozesse im Computer bietet die Möglichkeit, durch gezielte virtuelle Störungen neue Effekte vorherzusagen, die dann im Experiment überprüft werden können. Solche Vorhersagen sind für viele praktische Anwendungen sehr nützlich, z.B. für die Entwicklung neuer Medikamente. In der Arbeitsgruppe Bioinformatik wurden in den letzten Jahren verschiedene Entwicklungen vorgenommen, die eine Modellierung von biologischen Prozessen unterstützen, wie z.B. eine Datenbank zur Integration humaner funktioneller Interaktionen (ConsensusPathDB) und das Modellierungssystem PyBioS.

Einführung

Die Erstellung mathematischer Modelle ist ein dreistufiges Verfahren. Im ersten Schritt müssen die Randbedingungen des Modells definiert werden. Dazu gehören die Bestimmung der Modellkomponenten; bei biologischen Modellen sind das in der Regel Proteine, Metabolite, Gene und deren Initialwerte. Im zweiten Schritt werden die Interaktionen zwischen den Modellkomponenten festgelegt, also das Reaktionsnetzwerk des Modells. Im dritten Schritt erfolgt die Belegung der Modellreaktionen mit kinetischer Information, das heißt mit den mathematischen Gesetzen und kinetischen Parametern, die die Dynamik des Modells bestimmen [1].

Die Arbeitsgruppe Bioinformatik der Abteilung Analyse des Vertebratengenoms am Max-Planck-Institut für molekulare Genetik beschäftigt sich bereits seit einigen Jahren mit der Entwicklung von Software und Methodologie zur Erstellung derartiger mathematischer Modelle. Diese dienen einer Vielzahl von Anwendungen, zum Beispiel der Entwicklung von Krankheitsmodellen für verschiedene Tumortypen, für Typ-2 Diabetes mellitus, für Modelle zur Beschreibung der Zellantwort auf Chemikalien sowie für Modelle zur Entwicklungsbiologie im Allgemeinen.

Markeridentifizierung

Krankheiten können durch so genannte molekulare Marker (Gene, Proteine, Metabolite) im Labor diagnostiziert werden. Die Identifizierung spezifischer molekularer Marker, zum Beispiel zur frühzeitigen Diagnose des Krankheitsausbruchs, ist ein wichtiger Bestandteil der Genomforschung. Zur Markeridentifizierung werden zumeist statistische Verfahren der Bioinformatik eingesetzt. Ein typischer Ansatz besteht im statistischen Vergleich (Hypothesentest) von verschiedenen Zuständen, beispielsweise „erkrankt“ gegen „gesund“ oder „behandelt“ gegen „unbehandelt“ [2]. Wenn wenig Vorwissen vorhanden ist, werden dazu im Allgemeinen genomweite experimentelle Techniken wie microarrays oder Hochdurchsatz-Sequenzierungen bei der Genexpressionsanalyse genutzt. Bioinformatische Verfahren zur Markeridentifizierung sind dabei eng mit der Prozessierung der Daten (Qualitätskontrolle, Normalisierung) verbunden. Statistische Testverfahren werden benutzt, um die Signifikanz der Änderungen der Markerexpression beim Vergleich der verschiedenen Zustände zu bewerten.

Neben diesen Ansätzen für Einzelvergleiche kommen immer mehr auch integrative Ansätze zum Einsatz. Diese Ansätze beziehen die zahlreichen öffentlich verfügbaren Datensätze in die Analyse mit ein (Abb. 1). Die in Einzelvergleichen gewonnene Information kann so auf ihre Allgemeingültigkeit hin überprüft werden, um möglichst robuste Marker zu identifizieren [3].

standard Bild vergrößern
Meta-Analyse von Typ-2 Diabetes mellitus-Daten. Über einen Webserver (http://t2dm-geneminer.molgen.mpg.de) sind die Ergebnisse zugänglich. Ergebnisse für einzelne Gene, hier PDK4, werden über die verschiedenen Einzelstudien hinweg gezeigt (linkes Bild). Das Gen zeigt in diesem Beispiel eine Krankheitsrelevanz bezüglich vieler Einzelstudien verschiedener Gewebe in Mensch und Maus und kann daher als robuster Marker eingestuft werden. Rechtes Bild: Genregulationsnetzwerk aus Markern zum Typ-2 Diabetes mellitus. Transkriptionsfaktoren und deren Zielgene sind durch Kanten verbunden. Dicke Enden der Kanten zeigen auf die Transkriptionsfaktoren, also die regulierenden Gene, dünne Enden auf die Zielgene, also die regulierten Genen. [weniger]

Integration humaner funktioneller Netzwerke

Es existiert bereits eine Vielzahl (> 200) öffentlich zugänglicher Datenbanken, in denen biologische Prozesse annotiert und visualisiert werden. Diese Datenbanken (beispielsweise KEGG [4] oder Reactome [5]) bilden die Basis zur Bestimmung der Netzwerke, die die Modellkomponenten miteinander verbinden. Ein fundamentaler Nachteil in der Bestimmung der Reaktionsnetzwerke besteht in der Diversität der Datenbankannotationen, also der Tatsache, dass Datenbanken oft nur einen speziellen Datentyp abdecken, zum Beispiel Daten für Protein-Protein- Interaktionen, für metabolische Reaktionen oder für Signalwege. Biologische Prozesse umfassen jedoch üblicherweise mehrere dieser Datentypen. Dies führt in der Praxis dazu, dass ein Anwender viele verschiedene Datenbanken abrufen muss, um die nötige Information über das Reaktionsnetzwerk zu bekommen. In der Arbeitsgruppe Bioinformatik wurde deshalb die integrative Datenbank ConsensusPathDB entwickelt, die die verschiedenen Interaktionstypen integriert und eine umfassende Annotation ermöglicht [6]. ConsensusPathDB bündelt zurzeit den Inhalt von 12 primären Datenbanken für humane funktionelle Interaktionen. Sie enthält Information über 25831 verschiedene Komponenten (Proteine, Gene, Metabolite etc.) und 73426 verschiedene funktionelle Interaktionen und deckt dabei 1689 humane biologische Prozesse ab (zum Beispiel den Insulin-Signalweg, Glykolyse etc.). Diese Integration wurde ermöglicht durch die Entwicklung eines einheitlichen Datenbankschemas, das in der Lage ist, die verschiedenen Typen von Interaktionen und Modellkomponenten zu integrieren. ConsensusPathDB ist im Internet über einen Webserver frei zugänglich. Verschiedene Funktionalitäten erlauben beispielsweise die Suche nach Reaktionen von ausgewählten Proteinen, nach kürzesten Wegen zwischen zwei Proteinen, nach Methoden zur Identifizierung angereicherter Prozesse und nach Visualisierungskomponenten. Netzwerke können in den gängigen Formaten PSI-MI, BioPAX und SBML importiert und exportiert werden, was eine weitgehende Kompatibilität mit anderen Systemen ermöglicht (Abb. 2).

standard Bild vergrößern
ConsensusPathDB. Die Abbildung zeigt die wesentlichen Funktionalitäten der Nutzerschnittstelle, beispielsweise die Suche nach spezifischen Komponenten und Netzwerken, Modellimport und –export sowie die Visualisierung der verschiedenen Interaktionstypen (Knoten) und deren Herkunft aus den Primärdatenbanken (Kanten). [weniger]

Modellierung biologischer Prozesse mit PyBioS

Aufbauend auf der Struktur des Reaktions- und Interaktionsnetzwerks kann ein mathematisches Modell erstellt werden, welches beispielsweise durch ein gewöhnliches Differenzialgleichungssystem gegeben ist. Ein derartiges Modell beschreibt die zeitlichen Konzentrationsänderungen der Modellkomponenten. Für die Erstellung eines solchen Modells benötigt man zudem kinetische Gesetze, die die Geschwindigkeiten der einzelnen Reaktionen beschreiben. Beispiele für eine derartige Kinetik sind unter anderem die von Michaelis und Menten abgeleitete Kinetik für enzymkatalysierte Reaktionen oder die Massenwirkungskinetik. Die genaue Geschwindigkeit einer einzelnen Reaktion wird dabei durch kinetische Parameter und die Konzentrationen der beteiligten Reaktionspartner festgelegt. Kinetische Parameter müssen experimentell ermittelt oder an gemessene Zustandsänderungen angepasst werden. Vielfach ist es aber auch möglich, Näherungen für die kinetischen Modellparameter zu verwenden, um qualitative Aussagen über das Modellverhalten zu treffen.

Für die Erstellung mathematischer Modelle ist in der Arbeitsgruppe Bioinformatik das Computerprogramm PyBioS entwickelt worden [1,7,8]. PyBioS hat eine web-basierte Benutzerschnittstelle (Abb. 3). Das Programm automatisiert die Generierung und Simulation mathematischer Modelle und ermöglicht dadurch auch die Erstellung und Untersuchung großer Modelle. PyBioS automatisiert auch die Integration von Reaktionsnetzwerken aus Datenbanken wie KEGG, Reactome oder ConsensusPathDB und bietet eine Vielzahl vordefinierter kinetischer Gesetze an. Dies ermöglicht eine schnelle Modellerstellung und vermeidet Fehler in der Modellentwicklung. Ferner hat PyBioS auch vielfältige Funktionalitäten für die Visualisierung der Simulationsergebnisse, wie zum Beispiel die Darstellung von zeitlich verlaufenden Konzentrationsänderungen. Neben der reinen Simulation ist auch die Modellanalyse von großer Bedeutung. Hierfür bietet PyBioS beispielsweise die Möglichkeit, den Einfluss eines Modellparameters auf das Modellverhalten im stationären Zustand zu untersuchen. Eine derartige Sensitivitätsanalyse dient der Identifizierung kritischer Modellparameter.

standard Bild vergrößern
Die Web-basierte Benutzerschnittstelle des Modellierungssystems PyBioS beinhaltet eine Sammlung verschiedener Modelle (A). Die hierarchische Struktur eines einzelnen Modells orientiert sich dabei an der zellulären Kompartimentierung (B). Über verschiedene Reiter kann der Benutzer auf die unterschiedlichen Funktionalitäten des Programms zugreifen. Dies umfasst zum Beispiel die Visualisierung des Reaktionsnetzwerks (C), die detaillierte Auflistung der Reaktionen (D) sowie die Darstellung der Simulationsergebnisse (E). [weniger]

Zusammenfassung und Ausblick

In diesem Bericht wurden Werkzeuge für die verschiedenen Schritte bei der Erstellung und Analyse von computergestützten Modellen biologischer Prozessen vorgestellt. Diese Modelle ermöglichen eine Vorhersage des Verhaltens eines biologischen Systems,wenn zum Beispiel bestimmte Änderungen auftreten (Medikamentengabe, Umwelteinflüsse, Entwicklungsvorgänge). Die Modellierung von biologischen Prozessen, insbesondere von Krankheitsprozessen, besitzt ein hohes wissenschaftliches und wirtschaftliches Potenzial, ist jedoch zur Zeit noch zu generisch, um ein individuelles biologisches System, etwa das eines Patienten, exakt beschreiben zu können. Es wird in Zukunft darauf ankommen, gezielt molekulare Informationen in die mathematischen Modelle einzubauen, um beispielsweise Effekte von Mutationen oder individuelle Gen- und Proteinexpressionsdaten bei der Modellierung berücksichtigen zu können.

Originalveröffentlichungen
E. Klipp, R. Herwig, A. Kowald, C. Wierling, H. Lehrach:
Systems biology in practice.
Wiley-VCH, Weinheim (2005).
R. Herwig, P. Aanstad, M. Clark, H. Lehrach:
Statistical evaluation of differential expression on cDNA nylon arrays with replicated experiments.
Nucleic Acids Research 29, e117 (2001).
A. Rasche, H. Al-Hasani, R. Herwig:
Meta-analysis approach identifies candidate genes and associated molecular networks for type-2 diabetes mellitus.
BMC Genomics 9, e310 (2008).
M. Kanehisa, S. Goto:
KEGG: Kyoto encyclopedia of genes and genomes.
Nucleic Acids Research 28, 27–30 (2000).
I. Vastrik, P. D’Eustachio, E. Schmidt, G. Joshi-Tope, G. Gopinath, D. Croft, B. de Bono, M. Gillespie, B. Jassal, S. Lewis, L. Matthews, G. Wu, E. Birney, L. Stein:
Reactome: a knowledge base of biologic pathways and processes.
Genome Biology 8, R39 (2007).
A. Kamburov, C. Wierling, H. Lehrach, R. Herwig:
ConsensusPathDB - a database for integrating human functional interaction networks.
Nucleic Acids Research 37, D623-D628 (2008).
C. Wierling:
PyBioS - ein Modellierungs- und Simulationssystem für komplexe biologische Prozesse.
In: Forschung und wissenschaftliches Rechnen. Beiträge zum Heinz-Billing Preis 2005 (Hrsg.: K. Kremer, V. Macho), Nr. 69: 53-71. Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) (2006).
C. Wierling, R. Herwig, H. Lehrach:
Resources, standards and tools for systems biology.
Briefings in Functional Genomics and Proteomics 6, 240-251 (2007).
Zur Redakteursansicht