Direkt zum Inhalt

Bioinformatik: Genome – molekulare Landkarten von Lebewesen

Nachdem in den 1990er Jahren bakterielle Genome und das Hefezellgenom vollständig sequenziert und bioinformatisch analysiert wurden, folgten ab 2001 Humangenom und zahlreiche weitere eukaryotische (Zellen mit Zellkern) Genome. Die Erkennung der Funktion einzelner Gene erfolgt durch Sequenzvergleiche.
Die ersten Genome, die man entschlüsselte, gehören BakteriophagenLaden...

Zusammenfassung

Aufbauend auf Sequenzvergleichen assemblieren spezielle Algorithmen die Sequenzfragmente moderner Sequenzierungstechniken. Nachdem in den 1990er Jahren bakterielle Genome und das Hefezellgenom vollständig sequenziert und bioinformatisch analysiert wurden, folgten ab 2001 Humangenom und zahlreiche weitere eukaryotische (Zellen mit Zellkern) Genome. Die Erkennung der Funktion einzelner Gene erfolgt durch Sequenzvergleiche: Proteinfunktionsanalyse (siehee Kapitel 1), aber auch Annotation der regulatorischen Genomelemente (ENCODE-Konsortium) sind Hauptaufgaben der Genomanalyse. Es liegt für fast alle bekannteren Organismen die Genomsequenz vor. Man kann damit die wesentlichen molekularen Bestandteile dieser Organismen erfolgreich vorhersagen.

3.1 Genome sequenzieren – Genome buchstabieren

Wir haben uns im vorigen Kapitel mit RNA als »magisches« Molekül beschäftigt. Aber wie sieht es mit dem dauerhaften Speichern von Informationen in der Zelle aus, der Gesamtheit der DNA, dem Genom?

DNA bedeutet Desoxyribonukleinsäure, auf Englisch DNA abgekürzt, und ist ein ganz hervorragender Speicher für Informationen, den Lebewesen schon seit fast drei Milliarden Jahren benutzen. Wie bei unseren modernen Speichermedien ist dabei die Ein- und Auslesetechnologie recht wichtig, denn meistens werden ja nur Abschriften hergestellt, über RNA (siehe voriges Kapitel). Vermehrt sich dagegen ein Einzeller oder wächst ein Vielzeller, teilen sich dafür die Körperzellen. Und bevor sie sich in zwei Hälften zerreißen, ist es nötig, dass die genetische Information in den Zellen verdoppelt wird. Dafür gibt es ein Enzym, die Polymerase, und damit paaren sich Adenin, Guanin, Cytosin und Thymidin als neuer DNA-Strang an den gegenüberliegenden Strang. Mit vielen Nukleotiden pro Sekunde wird so eine exakte Kopie hergestellt. Diesen Prozess hatte zunächst Frederick Sanger zum Ablesen der genetischen Information genutzt. Er markierte die neu hergestellte DNA radioaktiv, mischte aber außerdem Didesoxyadenintriphosphat unter das normale Desoxyadenintriphosphat, so dass das Enzym immer beim Adenin ins Stottern kommt und mit etwa 1 %-Wahrscheinlichkeit bei jedem Adenin abbricht. Auf diese Weise kann man dann alle Adenine in der Sequenz sichtbar machen, nachdem man die radioaktiv markierten Fragmente nach der Größe sortiert und einen Film auflegt. Wenn ich andere Didesoxynukleotide verwende, lese ich auch die anderen Nukleotide. Ich kann außerdem die Radioaktivität durch unterschiedlich leuchtende Nukleotide ersetzen und mit Hilfe eines Lasers online die Nukleotide ermitteln. All dies führte dazu, dass man immer schneller die DNA-Sequenzen bestimmen konnte, um die Sequenzflut schließlich in großen Computerdatenbanken zu speichern. Nachdem man dann auch die Sequenzierungsreaktion und die Auftrennung der Fragmente immer weiter miniaturisiert hatte, erhöhte sich die Sequenzierungsgeschwindigkeit immer weiter, so dass man mittlerweile je Sequenzierungslauf viele Millionen Nukleotide je Spur lesen und viele Spuren gleichzeitig verarbeiten kann. Zum Ermitteln der Genomsequenz werden dazu vorher die DNA eines Organismus zerkleinert (»Schrotschuss«-Methode) und dann in Windeseile all diese kleinen Stückchen gleichzeitig sequenziert. Damit gestaltet sich allerdings eine weitere Aufgabe immer schwieriger, und zwar die vielen Sequenzschnipsel in der richtigen Weise aneinanderzufügen, also die Genomsequenz richtig aus den gefundenen Schnipseln durch Aneinanderlegen zu ermitteln (»Mapping« und »Assemblierung« der Genomsequenz). Insbesondere Regionen, bei denen sich Sequenzen immer wieder wiederholen (Repeatregionen), lassen sich schwierig korrekt in ihrer Länge und Anzahl an Wiederholungen darstellen.

Danach können wir beginnen, die fertige Genomsequenz zu lesen, also ihren Inhalt zu verstehen (vgl. Abb. 3.1, in dieser Leseprobe nicht enthalten). Viele Teile sind durch Sequenzvergleich, etwa mit dem Programm BLAST, zu verstehen. Gleicht dieser Sequenzabschnitt einem schon beschrifteten DNA-Stück aus einem anderen Organismus, nehme ich an, dass dies auch die Funktion dieses Genabschnittes im neu sequenzierten Organismus ist. Da Ähnlichkeiten aber auch schwach sein können, kann das Beschriften der Genomsequenz an den unähnlichen Stellen Probleme bereiten (Fachwort Annotation; die Überprüfung einer vorhandenen Beschriftung nennt man Reannotation). Als eine einfache Faustregel übernimmt man nur die BLAST-Ergebnisse, die eine erwartete Zufallstrefferwahrscheinlichkeit (E-Value) von weniger als 1 zu 1 Million haben. Für die anderen Teile der Genomsequenz, die nicht so einfach ihre Funktion durch hohe Ähnlichkeit verraten, muss man diese genauer analysieren. Sind zum Beispiel etwa Proteine (Datenbanken Pfam, SMART, ProDom, UniProt) und lange Leseraster hier versteckt (Programm GenScan und so weiter)? Wo liegen Transkriptionsfaktorbindestellen (Datenbank Transfac, Programm TESS et cetera)? Kann ich die zu einer Ableseeinheit zusammenstellen, einem Promotor, der ein Gen dann hier spezifisch abliest (zum Beispiel Überprüfung mit dem Programm Genomatix)? Daneben gibt es zahlreiche Spezialsoftware, die etwa RNA-Sequenzen (zum Beispiel Rfam, tRNAscan), virale Sequenzen, Repeat-Regionen (zum Beispiel Repeat Masker) und andere Stellen im Genom (zum Beispiel Enhancer, miRNAs, lncRNAs) aufspürt und entsprechend beschriftet.

Auf diese Weise begann man, ab 1995 (mit E. coli und der Hefezelle) erste Genome vollständig zu beschriften und zu veröffentlichen. Es folgten dann die etwa 1000-mal größeren Genome von Eukaryoten (Zellen mit Zellkern), insbesondere das des Menschen (2001) sowie von vielen anderen höheren Organismen (Fliege, Mücke, Maus, Ratte, Schimpanse, Huhn, Fische et cetera).

Ein weiterer Aspekt ist es dann, die codierten Proteine, RNAs und Elemente zu höheren Netzwerken zusammenzusetzen. Denn zum Beispiel ein einzelnes Enzym steht ja nicht allein, sondern bildet metabolische Netzwerke (siehe nächstes Kapitel). Und genauso ist auch ein Transkriptionsfaktor, der an den Promotor eines Gens bindet, nicht allein, sondern Teil der Gesamtregulation (so genannte regulatorische Netzwerke, siehe übernächstes Kapitel).

Ein Organismus, der ein recht kompaktes Genom hat und dennoch eine voll lebensfähige selbstständige Zelle darstellt, ist Mycoplasma genitalium (gut 580 000 Nukleotide groß). In drei spannenden Arbeiten von 2009 haben da Luis Serrano (Experimente) und Peer Bork (Bioinformatik) diese verschiedenen Ebenen, die Genomsequenz zu verstehen, das Transkriptom und die Proteine sowie den Stoffwechsel und die Regulation zu begreifen, sehr schön dargestellt (Güell et al. 2009; Yus et al. 2009; Kühner et al. 2009). Die Abb. 3.1 verdeutlicht ein fertiges Stück der Genomsequenz. Wir zeigen hier den »origin of replication« aus Gibson et al. 2008, weil man nämlich gerade bei Bakterien in ihrem Genom hier beginnt, die Gene durchzunummerieren.

3.2 Das Humangenom entziffert

Die Entzifferung des Humangenoms war ein Meilenstein der Forschung. Dabei wurden die Sequenzierungstechniken der 1990er Jahre (Kapillargel-Elektrophorese, automatisches Lesen mit einem Laser) systematisch und intensiv eingesetzt. Insbesondere Craig Venter beschloss, in industrieller Weise voranzugehen und mit Hilfe der ersten Sequenzierroboter wesentlich schneller fertig zu werden (nur drei Jahre nach 1998; Venter et al. 2001) als die Gruppe von typischen Universitätswissenschaftlern und -professoren, die sich schon seit mehr als zehn Jahren mit dem Projekt beschäftigten.

Dieses Wettrennen hat sicher die Sequenzierung des Humangenoms, aber auch die Entwicklung der damit notwendigen Sequenzanalysen der Bioinformatik, um alles »richtig« zusammenzufügen, wesentlich beschleunigt. Andererseits kann man nicht sagen, dass Craig Venter »gewonnen« hat. Zum einen wurden beide Arbeitsgruppen etwa gleich schnell fertig, zum anderen ist es aber so gewesen, dass die Landkarte (also das Sammeln genetischer Marker, Restriktionsschnittstellen, Positionsklonierung von Genen et cetera) des öffentlichen Konsortiums unter Erik Lander entscheidend dazu beigetragen hat, dass Venter überhaupt so schnell seine Sequenzen zusammenfügen konnte. 2001 haben dann beide Konsortien, das private Firmenkonsortium und das öffentliche Forschungskonsortium, eine erste »Draft«-Sequenz des Genoms veröffentlicht (Lander et al. 2001; Rückblick in Lander 2011) – eine grobe Karte, aber nicht nur der Gene, sondern eben auch aller Nukleotide, die jedes Gen codieren.

Damit war das Humangenom das erste Mal »durchbuchstabiert« worden. Es zeigte sich aber beispielsweise in den bahnbrechenden Arbeiten des ENCODE-Konsortiums (2012), dass nach dem Buchstabieren das Lesen erst mit 100-fach besserer Genom- und vor allen Dingen Transkriptomabdeckung wirklich beginnt und man den Inhalt und die Feinheiten des menschlichen Genoms zu verstehen beginnt.

Diese Ergebnisse, die über die Jahre hinweg immer weiter wachsen, stehen nun auf verschiedenen Einstiegsseiten zur Verfügung.

Man kann diese Ergebnisse beispielsweise auch am NCBI für Fragen und Analysen aufsuchen, zum Beispiel über den link https://www.ncbi.nlm.nih.gov/geo/info/ENCODE.html.

Einstiegsseite des Humangenomprojektes

Einen besonders guten allgemeinen Zugang zu der Genomanalyse des Menschen und deren Historie erlaubt die Einstiegsseite des Humangenomprojektes.
http://www.genome.gov

Das Ergebnis (Leitung, Ergebnisse) wird auf »All About The Human Genome Project (HGP)« erklärt.
http://www.genome.gov/10001772

Einen alternativen Blick hat die Einstiegsseite des »Department of Energy«. Hier hatte man viele Großprojekte der Physik geleitet, weshalb diese Seite auch den »Big Data«-Aspekt beleuchtet.
http://genomics.energy.gov

Eine detaillierte Sichtung aller Daten erlaubt das Archiv des Humangenomprojektes.
http://web.ornl.gov/sci/techresources/Human_Genome/index.shtml

Literatur

Gibson DG, Benders GA, Andrews-Pfannkoch C et al (2008) Complete chemical synthesis, assembly, and cloning of a Mycoplasma genitalium genome. Science 319(5867):1215–1220. doi: 10.1126/science.1151721

Güell M, Noort V van, Yus E et al (2009) Transcriptome complexity in a genome-reduced bacterium. Science 326(5957):1268–1271. doi: 10.1126/science.1176951 (PubMed PMID: 19965477)

Kühner S, Noort V van, Betts MJ et al (2009) Proteome organization in a genome-reduced bacterium. Science 326(5957):1235–1240. doi: 10.1126/science.1176343 (PubMed PMID: 19965468 * Hier werden Genom und Proteome bei dem kleinen Organismus M. pneumoniae exemplarisch erklärt.)

Lander ES (2011) Initial impact of the sequencing of the human genome. Nature 470(7333):187–197. doi: 10.1038/nature09792 (* Hier beschreibt Eric Lander, was aus seiner ersten Humangenomsequenz zehn Jahre später an medizinischen Fortschritten folgte.)

Lander ES, Linton M, Birren B et al (2001) Initial sequencing and analysis of the human genome. Nature 409(6822):860–921. doi: 10.1038/35057062 (* Das Jahrhundert-Paper über die erste Beschreibung des Humangenoms.)

The ENCODE Project Consortium (2012) An integrated encyclopedia of DNA elements in the human genome. Nature 489:57–74. doi: 10.1038/nature11247 (* Das ENCODE-Konsortium hat eine Enzyklopädie aller DNA-Elemente im Humangenom erstellt und ist etwa 100-mal genauer als die ursprüngliche initiale Sequenzierung. Außerdem zeigte sich, dass etwa die Hälfte des Humangenoms aktiv transkribiert ist, viel mehr als die Proteingene [30 % des Genoms; kodierende Regionen nur 3 %].)

Venter JC, Adams MD, Myers EW et al (2001). The sequence of the human genome. Science 291(5507):1304-1351. Erratum in: Science 292(5523):1838 (PubMed PMID: 11181995 * Dies ist das berühmte Humangenom-Sequenzierungspaper, das J. Craig Venter mit seinem Genomfuhrpark in nur drei Jahren geschafft hat.) Google Scholar

Yus E, Maier T, Michalodimitrakis K et al (2009) Impact of genome reduction on bacterial metabolism and its regulation. Science 326(5957):1263–1268. doi: 10.1126/science.1177263 (PubMed PMID:19965476 * Dieser Artikel aus den AGs Serrano und Bork beschreibt, wie sich das Genom und der Metabolismus sowie seine Regulation von Mycoplasma pneumoniae angepasst hat.)

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.