Direkt zum Inhalt

Genforschung: Autokorrektur schreibt Fehler in Gendaten

Vor einer Sache sind Genetiker gewarnt worden: Tabellenkalkulationen. Offenbar umsonst, denn immer noch finden sich Fehler im Datenanhang von rund einem Drittel der Veröffentlichungen. Sie gehen auf das Konto von Excel und Co.
Gendaten auf dem Bildschirm

In Internet-Listenartikel und Twitter-Threads werden peinliche Autokorrektur-Fehler seit jeher gern herumgezeigt. Für Genforscher sind sie dagegen die Pest. Trotzdem schleichen sie sich durch Tabellenkalkulationsprogramme wie Excel wieder und wieder in Veröffentlichungen ein – und das blieb auch so, seit eine Studie vor fünf Jahren die weit verbreiteten Autokorrektur-Probleme in der akademischen Literatur aufgedeckt hatte. Weiter gilt, dass Publikationen gespickt sind mit Fehlern aus dem Excel- oder Google-Sheet, wie eine neue Analyse von aufgelisteten Gendaten in Veröffentlichungen zeigt. Womöglich ist das Problem noch schwerwiegender als gedacht.

Die im Prinzip lang bekannte Fehlerkette nimmt ihren Lauf, sobald die abgekürzte Form eines Gennamens falsch als Datum erkannt und von dem Tabellenprogramm automatisch »korrigiert« wird. So werden dann wie von selbst aus SEPT4 (Septin 4) und MARCH1 (membranassoziierter Ring-CH-Finger 1) zum Beispiel 4-Sep und 1-Mar, also der 4. September und 1. März.

Und das kann dann »erhebliche Auswirkungen auf unsere Forschung haben«, sagt die Molekularbiologin Auriol Purdie von der University of Sydney in Australien. Sie arbeitet seit zwei Jahrzehnten mit Gen-Microarray- und Gentranskriptionsdatensätzen und hat selbst die Bekanntschaft mit dem übersehenen Autokorrektur-Fehler machen müssen, der, sagt Purdie, besonders gerne bei Anfängern zuschlage.

Hineinkorrigierte Fehler verzerren Studienresultate

Purdies Arbeit dreht sich darum, Gennetzwerke zu identifizieren, in denen Defekte die frühen Stadien von Schaf- und Rinderkrankheiten mit auslösen. Diese Gene gehen im Prozess verloren, wenn ihre Namen in einer Tabellenkalkulation geändert werden: Die Daten werden dann nicht wie andere in eine Analysesoftware genetischer Netzwerke importiert. Das kann die Ergebnisse verfälschen: Das Programm werde zwar anzeigen, dass eine Reihe von Genen herausgefallen sind – welche das sind, bleibe aber unklar, erklärt die Molekularbiologin. Es sei allerdings sehr arbeitsaufwändig, im Anschluss manuell Listen zu vergleichen, um die verloren gegangenen Gene in Datensätzen von beispielsweise 20 000 Einträgen zu ermitteln.

Neu ist das Problem nicht: Der Pharmakologe Barry Zeeberg vom National Institute of Cancer der USA und seine Kollegen haben schon 2004 davor gewarnt, dass es bei der Verarbeitung von Gendaten auftreten kann.

Fehler in Gensequenzen beeinträchtigen Hunderte von Studien

Im Jahr 2016 haben Mark Ziemann und seine Kollegen vom Baker IDI Heart and Diabetes Institute in Australien das Problem dann quantifiziert: Ein Fünftel der Veröffentlichungen in führenden Genetik-Fachzeitschriften enthielt in den angehängten Zusatzdaten Fehler, die bei der Konvertierung von Gennamen in Excel-Tabellen aufgetreten sind. Auf diese Datensätze wird häufig zugegriffen; andere Genetiker nutzen sie, können die Fehler dabei fortschreiben und weitere Analysen verzerren.

Die Forschung war also auf das Problem aufmerksam gemacht wurden, und es wurden auch Gegenmaßnahmen ergriffen. Nur: Auch jetzt kommen solche Fehler noch oft vor, wie Ziemann – heute an der Deakin University in Australien – und seine Kollegen in einer aktualisierten, umfassenderen Analyse nun 2021 zeigen. Das Team fand in fast einem Drittel von mehr als 11 000 Artikeln mit Gendaten aus Excel Fehler in den Namen der Gene. Die untersuchten Arbeiten waren zwischen 2014 und 2020 veröffentlicht wurden.

Im Prinzip kann schon eine simple Überprüfung Autokorrektur-Fehler aufdecken, sagt Ziemann, der über computergestützte Reproduzierbarkeit in der Genetik forscht. Ohne solche Kontrollen aber können die Fehler leicht unbemerkt bleiben, da in den Tabellenkalkulationsprogrammen ja enorme Datenmengen stecken.

Letzte Lösung: Die Änderungen der Namenskonvention von Genen

Das HUGO Gene Nomenclature Committee (HGNC) ist dafür zuständig, die Namen von menschlichen Genen zu standardisieren. Im Jahr 2017 hatte das Komitee drastische Maßnahme angekündigt: Es werde die Genkürzel-Namen für häufig betroffene Gene ändern, weil sämtliche Bemühungen der Gemeinschaft das Problem nicht lösen konnten. Auch ein Aufruf per Youtube blieb 2019 fruchtlos. Insgesamt 27 Genkürzel sind nun aktualisiert worden, darunter SEPT4 (jetzt SEPTIN4) und MARCH1 (jetzt MARCHF1).

Mit diesem Schritt bricht das Komitee mit der lieb gewonnenen Tradition, einmal vergebene Namen möglichst nicht zu verändern, sagt die HGNC-Koordinatorin Elspeth Bruford vom Europäischen Bioinformatik-Institut in Großbritannien. Der Ausschuss hatte im Jahr 2020 Leitlinien herausgegeben, in denen die neue Regel über die Änderung von Genkürzeln festgehalten ist, die durch Datenverarbeitungsprozesse womöglich betroffen sein könnten. Andere mit der Benennung von Genen befasste Gremien sind diesem Beispiel gefolgt.

Ob die Änderungen die Fehlerrate in den Publikationen gesenkt haben, könne man allerdings derzeit noch nicht wissen, meint Bruford, weil die veröffentlichten Datensätze oft veraltete Genlisten enthalten. »Es wird Jahre dauern, bis dies sich allmählich niederschlägt«, sagt sie. Das HGNC empfiehlt den Forschern daher, auf die neuesten Daten aus öffentlichen Datenbanken zuzugreifen. Außerdem sollten Fachzeitschriften ihre Autoren dazu anhalten, bevor diese ein Paper bei ihnen einreichen.

Seit Anfang 2021 veröffentlicht Ziemann jeden Monat eine Rangliste der Zeitschriften, die gegen die Vorschriften verstoßen. Darunter befinden sich häufig bekannte Titel wie »Nature Communications«, »eLife«, »PLOS Genetics« und »Scientific Reports«. Ziemann vermutet, dies sei darauf zurückzuführen, dass die in diesen Zeitschriften veröffentlichten Artikel häufiger Listen mit Genen und umfangreichere Datensätze im Anhang enthalten.

Tabellenkalkulation: Ganz vermeiden oder angepasst einsetzen

Ein denkbarer Ansatz wäre laut Ziemann, für eine Publikation ganz auf Tabellenkalkulationsprogramme zu verzichten. Dabei taucht in einigen Programme das Problem gar nicht auf – etwa die Open-Source-Varianten LibreOffice und Gnumeric. Insgesamt aber ist der Output von Tabellenkalkulationen schwer zu überprüfen. Und wenn es ein Probleme gebe, dann sei nicht ohne Weiteres ersichtlich, wo es aufgetreten ist; schließlich gebe es keinerlei Dokumentation der vom Programm abgearbeiteten Schritte, sagt er.

Manche Computerbiologen setzen auf Skriptsprachen wie Python und R, die Gennamen nicht automatisch korrigieren, sagt Ziemann – hier lasse sich dann ein Fehler bis zur Quelle zurückverfolgen. Allerdings müssten die Benutzer solche Computersprachen beherrschen, um auch den Code für die Datenanalyse schreiben zu können. Purdie zum Beispiel sagt, dafür habe sie keine Zeit. An die Macken von Excel habe sie sich gewöhnt: Sie fügt vor häufig betroffenen Genen Apostrophe ein, um die Umwandlung zu verhindern, oder formatiert Tabellen vor dem Datenimport. »Das ist eben eine der Sachen, mit denen man einfach leben muss.«

Bruford hält es für wenig wahrscheinlich, dass die Autokorrektur-Probleme von Excel in nächster Zeit ad acta gelegt sein werden. »Wir sind eine kleine Gruppe von Usern der Software, verglichen mit allen Benutzern von Excel«, sagt sie. Und Microsoft hat nie angegeben, sein Programm vielleicht in Zukunft einmal anzupassen, um der Gemeinschaft der Genforscher einen Gefallen zu tun. Wer also weiterhin mit problematischer Software arbeitet, dem empfiehlt Ziemann zumindest einen kurzen Check, bevor die Daten weitergegeben oder veröffentlicht werden. Die Datenspalte einmal nach Genkürzeln zu sortieren, könne schon reichen, um fehlerhaft umgewandelte Daten aufzudecken.

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte