Pangenom: Ein kollektives menschliches Referenzgenom

Ein Pangenom ist eine Sammlung von DNA-Sequenzen, die genetische Variation zwischen Individuen aufzeigt. Vier Wissenschaftler erläutern die Entstehung des menschlichen Pangenoms und welche Erkenntnisse man daraus gewinnen kann.

von Melissa Gymrek, Arya Massarat, Hákon Jónsson und Brian McStay

Bunte DNA-Helices. — © Dr_Microbe / Getty Images / iStock (Ausschnitt)
Eine standardisierte Sammlung von Genomdaten soll die menschliche Vielfalt besser abbilden.

Arya Massarat & Melissa Gymrek:

Genetische Diversität mit Graphen beschreiben

Referenzgenome sind entscheidende Koordinatensysteme für genomische Analysen. Die beiden Referenzen, mit denen Fachleute derzeit bei der Untersuchung des Menschen arbeiten (der erste Entwurf des menschlichen Genoms und sein vollständiger, lückenloser Nachfolger mit der Bezeichnung T2T-CHM13), basieren jedoch größtenteils auf dem Genom einzelner Individuen. Eine solche lineare Genomsequenz kann die genetische Vielfalt innerhalb unserer Spezies nicht angemessen darstellen. Ein graphenbasiertes System von Verzweigungs- und Verschmelzungspfaden dagegen gibt die genetische Vielfalt des Menschen besser wieder. In der Fachzeitschrift »Nature« beschreibt ein Team um Wen-Wei Liao von der Washington University in St. Louis das erste menschliche Referenzpangenom – eine Sammlung von mehreren Genomsequenzen, die in einer einzigen Datenstruktur zusammengefasst sind.

Menschliche Referenzgenome auf Basis einzelner Individuen zu verwenden, ist deswegen problematisch, weil es immer die Interpretation von Sequenzen aus anderen menschlichen Genomen beeinflusst. So richtet man Sequenzen aus anderen Genomen in der Regel zunächst an der Referenz aus und reduziert sie dann auf einen Datensatz von Unterschieden zu dieser Referenz. Wäre die ursprüngliche Referenz anhand der DNA einer anderen Person erstellt worden, käme man bei diesem Prozess womöglich zu einem ganz anderen Ergebnis. Dies gilt insbesondere für sehr diverse und strukturell komplexe Regionen des Genoms. Darüber hinaus gibt es Hunderte Millionen DNA-Basen, die in einer auf einem einzigen Genom basierenden Referenz nicht erfasst werden können, da sie nur in einer Teilmenge des Menschen vorkommen. Ein Pangenom, das viele Genome mit unterschiedlicher Abstammung umfasst, könnte diese Probleme überwinden.

Die Erstellung eines Pangenoms ist jedoch sehr kompliziert. Erst im letzten Jahrzehnt haben es Durchbrüche in der Long-Read-Sequenzierungstechnologie und bei computerbasierten Methoden ermöglicht, diese Vision zu verwirklichen. Liao und Kollegen erstellten zunächst 94 Genomversionen von 47 Individuen – eine für jeden der beiden Chromosomensätze eines Individuums. Die beteiligten Personen repräsentieren eine Vielfalt von Abstammungen aus der ganzen Welt.

Die zusammengestellten Genome, erstellt mit einer Kombination aus Long-Read- und anderen Sequenzierungstechnologien, sind hochpräzise und nahezu vollständig. Außerdem enthalten sie 119 Millionen Basenpaare an Sequenzen, die im Entwurf des menschlichen Referenzgenoms nicht enthalten sind. Um Pangenome aus diesen Zusammenstellungen zu konstruieren, verwendeten die Autoren drei Methoden zur Erstellung von Graphen. Eine dieser Methoden gleicht alle Sequenzen gleichzeitig ab; die anderen verwenden ein Genom als Referenz und gleichen jede nachfolgende Sequenz nacheinander ab.

Das Ergebnis ist eine Reihe öffentlich zugänglicher Pangenom-Graphen, zusammen mit vielen verschiedenen Open-Source-Tools und standardisierten Dateiformaten, die Forscher ähnlich wie ein lineares Referenzgenom verwenden können. Liao und sein Team wiesen nach, dass die Verwendung ihrer Pangenome für das so genannte »Read Mapping« und die Variantenbestimmung zu 34 Prozent weniger Fehlern bei der Bestimmung kleiner Varianten (kürzer als 50 Basenpaare) führte als eine lineare Referenz. Besonders deutlich war der Unterschied in DNA-Regionen mit sehr vielen Wiederholungen, die schwer zu sequenzieren sind.

Eindrucksvoll ist auch, dass das Team anhand der Pangenome doppelt so viele große genomische Veränderungen, so genannte Strukturvarianten, pro Person identifizieren konnte, wie mit einer linearen Referenz möglich ist. Die menschliche Pangenom-Referenz stellt einen Meilenstein in der Humangenetik dar. Einige Herausforderungen bleiben allerdings. Sequenzen mit hochvariablen, sich wiederholenden Regionen im Pangenom zu vergleichen, könnte durch präzisere Genom-Zusammenstellungen oder neue Algorithmen verbessert werden. Es werden auch mehr Proben von verschiedenen Bevölkerungsgruppen und Ethnien benötigt.

Schließlich könnte es eine Weile dauern, bis eine breite Mehrheit der Fachleute die Pangenome nutzt – neue Methoden, die die Pangenom-Analyse unterstützen, werden kontinuierlich entwickelt. Wissenschaftler müssen oft erst in den Methoden geschult werden, um sie anzuwenden. Aber die Verbesserung der Techniken, Pangenome zu erstellen und zu nutzen, wird es den Forscherinnen und Forschern ermöglichen, diese Herausforderungen zu meistern. Pangenome haben das Potenzial, die menschliche Genomik zu verändern. Dadurch wird es letztlich einfacher, genetische Varianten zu entdecken, die körperliche und klinische Merkmale vermitteln, und das wird – hoffentlich – auch die Gesundheitsversorgung vieler Menschen verbessern.

Brian McStay & Hákon Jónsson:

Wiederholungssequenzen entschlüsseln

Sich wiederholende DNA-Regionen zu sequenzieren, ist anspruchsvoll, weil es schwierig ist, ihnen den richtigen Platz im Genom zuzuordnen. Zu solchen Regionen gehören verdoppelte Segmente (bei denen sich Sequenzen von mehr als 1000 Basenpaaren Länge an anderer Stelle im Genom wiederholen) und die kurzen Arme (p-Arme) einer Untergruppe von Chromosomen, die als akrozentrische Chromosomen bezeichnet werden. In zwei Studien, die jetzt ebenfalls in »Nature« erschienen sind, werden diese Regionen mit Hilfe der Pangenome von Liao und seinem Team systematisch erforscht.

Eine Arbeitsgruppe um Andrea Guarracino von der University of Tennessee nutzte die Daten, um die akrozentrischen p-Arme zu analysieren, und ein Team um Mitchell R. Vollger von der University of Washington untersuchte die verdoppelten Segmente. Ihre Arbeiten geben einen Einblick in die Erkenntnisse, die man aus einer Pangenom-Referenz gewinnen kann. Bei den akrozentrischen Chromosomen (die Chromosomen 13, 14, 15, 21 und 22 beim Menschen) ist der p-Arm erheblich kürzer als der andere (q) Arm. Die akrozentrischen p-Arme haben nur eine Aufgabe: Sie bilden die so genannten Nukleoli, in denen die Ribosomen hergestellt werden, die zellulären Maschinen, mit denen Zellen ihre Proteine produzieren.

P-Arme enthalten so genannte Nukleolarorganisatorregionen (die RNA-Stränge für die Bildung der Nukleoli codieren), DNA mit vielen Wiederholungen und viele andere gemeinsame Sequenzen. Diese gemeinsame, sich wiederholende DNA zeigt ein Phänomen an, das als heterologe Rekombination bezeichnet wird. Dabei finden sich verschiedene akrozentrische p-Arme paarweise zusammen und tauschen während der Zellteilungen, die Spermien und Eizellen erzeugen, DNA-Sequenzen aus. Im Gegensatz dazu beschränken sich diese als Pairing und Crossover bezeichneten Vorgänge bei den meisten Chromosomen auf zwei Kopien desselben Chromosoms (homologe Rekombination). Bei den XY-Geschlechtschromosomen, die auch eine heterologe Rekombination aufweisen, wird das Pairing durch kurze homologe Bereiche (nahezu identische Sequenzen) unterstützt, die den X- und Y-Chromosomen gemeinsam sind.

Das Team um Guarracino erstellte mit den Sequenzen von Liao und dessen Gruppe einen Variationsgraphen für akrozentrische p-Arme und stellte fest, dass sie so genannte pseudohomologe Regionen (PHRs) enthalten. Jede dieser PHRs ist ein Flickenteppich aus Sequenzblöcken. Als die Gruppe die Graphen ihrer PHRs mit dem »linearen« Referenzgenom verglich, fand sie mehr Ähnlichkeit mit den anderen vier akrozentrischen p-Armen von T2T-CHM13 als mit deren eigenen Pendants dort. Vermutlich unterstützen diese Blöcke die heterologe Rekombination und stellen sicher, dass sich die p-Arme gemeinsam weiterentwickeln, um ihre gemeinsame Rolle bei der Nukleoli-Bildung zu erhalten.

Die Arbeitsgruppe identifizierte außerdem Sequenzen in PHRs, an denen Brüche auftreten, die zu robertsonschen Translokationen (ROBs) führen. Dabei fusionieren die q-Arme zweier akrozentrischer Chromosomen und der größte Teil der p-Arme geht verloren. Dieses Phänomen tritt meist während der Eizellproduktion auf, und die Entdeckung deutet darauf hin, dass ROBs Kollateralschäden der heterologen Rekombination sind. Angesichts der Tatsache, dass ROBs bei einer von 800 menschlichen Geburten auftreten, vermuten wir, dass heterologe Rekombination zwischen akrozentrischen Chromosomen häufig ist und außerdem laufend geschieht. Wir erwarten, dass es mit der Aufnahme weiterer Genome in die Pangenom-Referenz möglich sein wird, zu ermitteln, wie häufig diese Rekombinationen vorkommen.

Dagegen nutzte das Team um Vollger die Referenz, um die Variation bei Segmentverdopplungen systematisch mit jener in nichtrepetitiven Teilen des Genoms zu vergleichen. Sie fanden eine 60 Prozent höhere Sequenzdiversität bei den verdoppelten Segmenten und zeigten, dass sich diese zwischen Bevölkerungsgruppen und Individuen deutlich unterscheiden. Gene in solchen verdoppelten Segmenten sind anfällig für die so genannte »interlocus gene conversion« (IGC) – dabei tauschen nichthomologe Teile der duplizierten Region kurze DNA-Sequenzen aus.

Vollger und seine Arbeitsgruppe identifizierten IGC-Ereignisse, indem sie nach Anzeichen von Sequenzverschiebungen in den Pangenomen suchten, und kamen zu dem Schluss, dass diese Ereignisse wahrscheinlich einer der Hauptgründe dafür sind, dass die Verdopplungen so vielfältig sind. Sie fanden heraus, dass bei 799 Genen proteincodierende Regionen von einem IGC betroffen waren. Es ist aufregend, die Segmentverdopplungen genauer charakterisiert zu sehen, da duplizierte Sequenzen die Evolution neuer, spezialisierter Funktionen eines Gens fördern können.

Das Team untersuchte außerdem den »constraint« von Sequenzen in duplizierten Genen. Dabei blickten sie vor allem auf diejenigen, die während der Evolution der menschlichen Abstammungslinie verdoppelt wurden. »Constraint«, englisch für Beschränkung, ist ein Maß für die Sequenzvielfalt – eine geringere Variation deutet darauf hin, dass Mutationen an dieser Stelle die Lebensfähigkeit des Organismus reduzieren. Diese Beschränkung fand das Team bei 38 Genen, darunter Mitglieder der NOTCH2-Genfamilie, die mit den typisch menschlichen Veränderungen der Hirngröße im Lauf der Evolution in Verbindung gebracht werden. Die repetitive Natur der Segmentverdopplungen hatte es zuvor bei mindesten 40 Prozent der analysierten Gene sehr schwer gemacht, den »constraint« zu bestimmen.

Zudem stellten die Autoren fest, dass 171 Gene dupliziert und intakt in neue Genomregionen verschoben wurden. Das bedeutet möglicherweise auch, dass die Mechanismen, die diese Gene regulieren, neu organisiert wurden. In Zukunft dürfte das Pangenom-Projekt Fachleuten die Möglichkeit geben, »constraint« in kürzlich duplizierten Genen genauer zu bewerten. Insgesamt geben diese Arbeiten einen Vorgeschmack darauf, wie die menschliche Pangenom-Referenz genutzt werden kann. Sie zeigen, wie der Austausch von Sequenzen zwischen sich wiederholenden Regionen unseres Genoms zur Variation in der Bevölkerung und zu unserer Evolution beiträgt. Da dieses Referenz-Pangenom auch in Zukunft erweitert wird, rechnen wir mit weiteren Einblicke in diese faszinierenden genomischen Regionen.

Nature 617, S. 256 - 257, 2023