Covid-19: Gelöschte Coronavirus-Genomsequenzen lösen Diskussion aus

Verschiedene Teilsequenzen von Sars-CoV-2 aus frühen Ausbrüchen in Wuhan 2020 wurden von Wissenschaftlern aus einer Datenbank der US-Regierung gelöscht. Sie könnten Aufschluss über Ursprung und Entwicklung des Virus geben.

von Ewen Callaway

Test auf Covid-19 — © Ergin Yalcin / Getty Images / iStock (Ausschnitt)

Die Frühphase und der eigentliche Ursprung der Coronavirus-Pandemie liegen wissenschaftlich noch ziemlich im Dunkeln. Wissenschaftler bekommen nun jedoch Material aus einer überraschenden Quelle. Ein Biologe in den Vereinigten Staaten hat Teile von Sars-CoV-2-Genomsequenzen aus den Anfängen der Seuchenwelle entdeckt. Sie stammen aus dem mutmaßlichen Epizentrum der Pandemie in Wuhan und waren in einer Datenbank der US-Regierung hinterlegt, woraus sie aber später entfernt wurden.

Diese Genomsequenzen weisen auf eine frühe genetische Vielfalt des Coronavirus Sars-CoV-2 hin. Befragte Wissenschaftler betonen jedoch, dass diese Daten bislang kein Licht auf die Ursprünge des Erregers werfen. Unklar ist ebenfalls, warum Forscher der Universität Wuhan darum gebeten hatten, die Sequenzen aus dem Sequence Read Archive (SRA) zu entfernen, das vom US National Institutes of Health (NIH) betrieben wird.

»Diese Sequenzen sind informativ, nicht transformativ«, sagt Jesse Bloom, Virenevolutionsgenetiker am Fred Hutchinson Cancer Research Center in Seattle, der in einem Preprint beschreibt, wie er die Sequenzen wiedergefunden hat.

Bloom entdeckte die Sequenzen bei der Suche nach Genomdaten aus der Frühphase der Pandemie. Eine Studie vom Mai 2020 enthielt demnach eine Tabelle mit öffentlich zugänglichen Sequenzdaten. Sie umfasste Einträge, die Bloom jedoch nicht kannte. Die Sequenzen hingen mit einer Arbeit in »Small« zusammen, die eine als Nanoporen-Sequenzierung bekannte Technologie zum Nachweis von Sars-CoV-2-Genmaterial in menschlichen Proben angewendet hatte.

Als Bloom im SRA nach den Sequenzen suchte und dabei die Angaben aus dem Paper vom Mai 2020 verwendete, fand er in der Datenbank keine Einträge. Das SRA speichert die Sequenzen in einem von Google verwalteten Cloud-Speicher, und Bloom fragte sich, ob er archivierte Versionen der Sequenzen auf diesen Servern finden könnte. Dadurch konnte der Biologe schließlich die Daten von 50 Proben wiederherstellen, von denen wiederum 13 genug Rohdaten enthielten, um partielle Genomsequenzen zu generieren.

Woher stammt das Virus?

Sie könnten laut Bloom helfen, ein evolutionäres Rätsel zum Beginn der Pandemie zu lösen. Die frühesten viralen Sequenzen aus Wuhan stammen von Individuen, die im Dezember 2019 mit dem Huanan Seafood Market der Stadt in Verbindung gebracht wurden. Man nahm zunächst an, dass an diesem Ort das Coronavirus erstmals von Tieren auf Menschen übersprang. Doch die Sequenzen vom Markt sind weiter von den engsten Verwandten von Sars-CoV-2 in Fledermäusen entfernt als spätere Sequenzen, darunter eine, die in den USA gesammelt wurde. Bis heute gelten Fledermäuse als wahrscheinlichster Ursprung des Virus, von wo sie direkt oder über einen Zwischenwirt auf uns übergesprungen sind.

Das kam überraschend, sagt Bloom. Die wiedergefundenen Sequenzen, die wahrscheinlich im Januar und Februar 2020 gesammelt wurden, seien enger mit den Fledermausviren verwandt als die späteren Sequenzen von Menschen, die mit dem Markt in Verbindung stehen.

Dies mehrt die wachsende Zahl an Beweisen, dass die ersten menschlichen Infektionen von Covid-19 nicht mit dem Huanan Seafood Market zusammenhängen. Darunter befinden sich beispielsweise auch Berichte über potenzielle Fälle aus dem November 2019, sagen Bloom und andere Wissenschaftler.

Das erste Superspreading-Event

»Für mich sieht es aus, als ob der Wuhan-Markt eines der ersten Superspreading-Ereignisse war«, sagt Sudhir Kumar, Evolutionsgenetiker an der Temple University in Philadelphia. Die Sequenzen, die Bloom aufgedeckt hat, deuteten an, dass Sars-CoV-2 in den frühen Stadien der Pandemie in China bereits eine enorme Diversität entwickelt hatte – auch in Wuhan.

Stephen Goldstein, Virologe an der University of Utah in Salt Lake City, betont, dass die Sequenzen, die Bloom gefunden hat, nicht wirklich versteckt waren: Sie werden in einem Paper in »Small« detailliert beschrieben: mit ausreichenden Informationen, um ihren evolutionäre Bezug zu anderen frühen Sars-CoV-2-Sequenzen zu kennen.

Obwohl die Sequenzen veröffentlicht wurden, bedeutete das Löschen aus dem SRA jedoch, dass nur wenige Wissenschaftler von ihnen wussten, sagt hingegen Bloom. Ein von der Weltgesundheitsorganisation in Auftrag gegebener Bericht über die Ursprünge der Pandemie bezog die Sequenzen nicht in eine Evolutionsanalyse der frühen Sars-CoV-2-Daten ein. »Niemand bemerkte, dass sie existierten«, so Bloom.

Die Autoren des Small-Artikels reagierten nicht auf Fragen von »Nature«, warum sie darum baten, die Sequenzen vor der Veröffentlichung des Papers aus dem SRA zu entfernen. Das NIH erklärte, dass es die Daten auf Antrag der Forscher entfernte: Diese hätten gesagt, dass sie planten, die Sequenzen bei einer anderen Datenbank einzureichen.

Bloom – der einen Brief mitverfasst hat, in dem eine erneute Untersuchung des Pandemieursprungs inklusive der Laborthese gefordert wird – sagt, dass seine Studie weder Rückschlüsse auf den Ausgangspunkt noch auf die Gründe zulässt, warum die Sequenzen entfernt wurden. Aber er hofft, dass seine Arbeit andere ermutigt, »über den Tellerrand zu blicken« und weitere Quellen, wie etwa Archivdaten, zu nutzen, um mehr Informationen aus den frühen Tagen der Seuche zu ermitteln. »Es gibt wahrscheinlich noch mehr da draußen«, sagt er.

Der Artikel erschien unter dem Titel »Deleted coronavirus genome sequences trigger scientific intrigue« auf »Nature«.