Als am 15. Januar 2001 die Online-Enzyklopädie Wikipedia entstand, war Gene E. Likens bereits im Rentenalter. In seiner beruflichen Laufbahn waren dem Ökologen bahnbrechende Entdeckungen zum sauren Regen gelungen. Er gehörte zu einer Gruppe von Forschern, die als Erste das Umweltphänomen in Nordamerika nachwiesen. Likens hatte maßgeblich dazu beigetragen, die Hypothese von der Versauerung des Regens durch Luftverschmutzung zu einer anerkannten wissenschaftlichen Theorie auszubauen – entgegen der Skepsis vieler Kritiker.

Wikipedia wurde geschaffen, um mit Hilfe des Internets das Wissen über Theorien wie die des sauren Regens jedem Menschen auf der Welt leicht zugänglich machen. Doch bald merkte Likens, dass seine Arbeit auch in der neuen digitalen Welt Feinde hat.

Seit 2003 beobachtet der Forscher, wie auf Wikipedia "Vandalen" gegen den Saurer-Regen-Artikel vorgehen. In der Wissenschafts-Community sei die Theorie längst akzeptiert, man kenne die Prozesse seit Jahrzehnten. "Aber trotz eines 'teilgeschützten' Status gegen anonyme Änderungen fanden bei dem Wikipedia-Artikel fast täglich Bearbeitungen statt, von denen manche entsetzliche Fehler enthielten oder den einhelligen Wissensstand verzerrten", klagt Likens in einer Pressemeldung zu einer aktuellen Studie in PLoS One. In der Studie hat er zusammen mit dem Geografen Adam M. Wilson von der University of Buffalo den Vandalismus in Wikipedia-Einträgen zu politisch umstrittenen Wissenschaftstheorien untersucht.

Allgemein versteht man unter "Vandalismus" bei Wikipedia jede Änderung, die entweder böswillig geschieht oder mit der Absicht, die Enzyklopädie zu verunstalten oder zu beschädigen. Einige Beispiele: Am 30. November 2011 entfernte ein anonymer Nutzer die Einleitung des englischen Saurer-Regen-Artikels und ersetzte sie durch einen Text, der sauren Regen als "a load of bullshit", einen Haufen Mist, bezeichnete. Am nächsten Tag löschte jemand den bereits korrigierten Abschnitt und beschrieb sauren Regen als einen gängigen Ausdruck für "die Ausscheidung von feuchter Kacke und Katzen" (the deposition of wet poo and cats).

Einen weiteren Tag später änderte ein Nutzer den Satz "während der 1990er Jahre ging die Forschung weiter" in "während der 1990er Jahre ging die Forschung an Elfen weiter". Im Verlauf des Tages folgte der Satz "SaureR (sic!) Regen hat Bugs Bunny getötet" (AciD Rain killed Bugs Bunny). Eine Viertelstunde später änderte jemand den Namen des Abschnitts "Chemie in Wolkentröpfchen" zu "Blowjobs".

Die Studie von Likens und Wilson vergleicht nun die Bearbeitungsgeschichten der englischen Wikipedia-Artikel zu saurem Regen, globaler Erwärmung und Evolution mit jenen zu Kontinentaldrift, Heliozentrismus, allgemeiner Relativitätstheorie und dem Standardmodell der Teilchenphysik. Dabei gingen die beiden Forscher davon aus, dass die ersten drei Theorien zwar wissenschaftlich weithin anerkannt, im Gegensatz zu den letzten vier aber stärker politisch umkämpft sind.

Um herauszufinden, ob ihre Erfahrung mit Vandalismus beim Saurer-Regen-Artikel sich auch auf andere politisch umstrittenen Wissenschaftstheorien verallgemeinern lässt, beschafften sich die beiden mit Hilfe eines selbst geschriebenen Computerprogramms die Bearbeitungsgeschichte aller sieben Artikel von Mitte 2003 bis Mitte 2012. Sie berechneten aus diesem Datensatz für jeden der Artikel drei Kennwerte: die durchschnittliche Zahl sowie den Umfang der täglichen Bearbeitungen und die durchschnittliche Anzahl der Artikelaufrufe pro Tag.

Abgestorbene Bäume
© fotolia / Lars Sander
(Ausschnitt)
 Bild vergrößernAbgestorbene Bäume
Speziell in den 1990er Jahren schwächte saurer Regen die Bäume auf der Nordhalbkugel.

Und tatsächlich fanden sie starke Indizien für ihre Vermutung: Der belebteste aller Artikel, jener zur globalen Erwärmung, schaffte es im Schnitt auf zwei Bearbeitungen pro Tag. Selbst der am wenigsten aktive Artikel der kontroversen Theorien, der zu Likens' und Wilsons Fachgebiet saurer Regen, war mit 0,5 Bearbeitungen am Tag häufiger Änderungen unterworfen als der betriebsamste der unstrittigen Vierergruppe zur allgemeinen Relativitätstheorie.

Auch beim Umfang der Bearbeitungen pro Tag setzte sich die Dreiergruppe von den vier anderen Artikeln ab. Diesmal lag der Evolutions-Artikel mit im Schnitt 142 geänderten Worten pro Tag vorn. Selbst der saure Regen brachte es auf 36 geänderte Worte, während aus der Kontrollgruppe der am stärksten fluktuierende Artikel zum Heliozentrismus täglich nur um 25 Worte geändert wurde.

Die Forscher sind sich der Grenzen ihrer Untersuchung bewusst. Zwar deuten Änderungshäufigkeit und -umfang auf eine höhere Vandalismus-Rate hin. Kausale Zusammenhänge lassen sich aus den Ergebnissen aber nicht herleiten. Zudem sind die Unsicherheiten der Daten teils unerfreulich groß.

Die drei umkämpften Artikel werden außerdem allesamt häufiger angesteuert als die vier weniger strittigen, allen voran der zur globalen Erwärmung. Sie sind also erheblich mehr Aufmerksamkeit ausgesetzt und allein deshalb schon anfälliger für Sabotage.

Wie verbreitet ist das Vandalismus-Problem auf Wikipedia? Eine Studie von Martin Potthast, Informatiker an der Bauhaus-Universität Weimar, zeigte 2010, dass etwa sieben Prozent der Bearbeitungen als Vandalismus gelten. Bereits Anfang 2014 gab es insgesamt 700 Millionen Bearbeitungen in der gesamten Online-Enzyklopädie.

Ziel von Potthasts Studie war es, einen Datensatz an Bearbeitungen zu erstellen, um an diesem verschiedene automatische Erkennungsstrategien zu testen und deren Qualität vergleichen zu können. Er hatte dazu über Amazons Mechanical-Turk-Dienst etwa 750 menschliche Helfer angestellt, die in einer Crowdsourcing-Aktion bei mehr als 32 000 Bearbeitungen darüber entschieden, ob Vandalismus vorlag.

Die Datenbank sollte der Erforschung einer neuen Generation von Anti-Vandalismus-Programmen dienen. Die ersten Detektor-Programme für Vandalismus auf Wikipedia gab es bereits 2006. Der AntiVandalBot, ein Programm, das eigenständig durch die Datenbanken turnte, war aber ebenso wie seine Nachfolger MartinBot und ClueBot noch auf feste Regeln angewiesen, um Grammatik, Groß- und Kleinschreibung und Verstöße gegen Listen mit Schimpfwörtern zu prüfen oder die Löschung großer Teile einer Seite sowie sinnloses Tastaturgehacke zu erkennen.

Die neue Generation von Detektor-Programmen erkennt in Datenbanken selbstständig Muster von Vandalismus, die sie dann auf neue Bearbeitungen anwendet. Dieser Ansatz basiert auf maschinellem Lernen. Er wird seit einigen Jahren in vielen Bereichen der Computerwissenschaften immer populärer, von der Jagd nach Plagiaten in wissenschaftlichen Veröffentlichungen bis hin zur automatischen Klassifizierung von Galaxien oder der Identifizierung von Unterstützern des Terrorbündnisses IS auf Twitter.

Potthast stellte seine Datenbank für einen Wettbewerb der besten Detektor-Programme im Rahmen des International Workshop on Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection (PAN) zur Verfügung. Die Programme nutzten dabei verschiedene Informationen aus den Bearbeitungsdaten, um Vandalismus zu erkennen. Beispielsweise untersuchten sie die Metadaten auf den zeitlichen Abstand der Bearbeitungen oder die Länge des jeweiligen Kommentars dazu. Häufige Änderungen deuten ebenso auf Vandalismus hin wie besonders lange oder kurze Kommentare der Änderungen.

Die Form des Textes kann ebenfalls auf Sabotage hindeuten. Das Verhältnis von Groß- zu Kleinbuchstaben beispielsweise oder der Anteil an Ziffern bewegt sich bei Anschlägen häufig außerhalb bestimmter Grenzen für normale Bearbeitungen, wenn etwa jemand EINE ÄNDERUNG AUSSCHLIESSLICH IN GROSSBUCHSTABEN ERSTELLT.

Auch ein bestimmter Sprachstil kann Vandalen verraten. Wenn zu häufig ungewöhnliche Superlative wie "coolste" oder "riesige" (coolest, huge) auftauchen oder Slang-Begriffe verwendet werden (wanna, gotcha), ist das häufig ein Zeichen für die unseriöse Bearbeitung eines Artikels.

Des Weiteren lässt sich die Reputation eines Nutzers verwenden, um abzuschätzen, ob er Übles im Schilde führt. Nutzer, die in der Vergangenheit nicht des Vandalismus bezichtigt wurden, genießen höheres Vertrauen als "Vorbestrafte". Außerdem fallen Nutzer aus bestimmten Ländern häufiger durch zerstörerische Bearbeitungen auf.

Metadaten, Text, Sprachstil, Reputation – diese Klassen bieten für Machine-Learning-Algorithmen momentan die besten Aussichten darauf, Vandalismus zu enttarnen. 2011 fügte ein Forscherteam die Ergebnisse des PAN-Wettbewerbs, den Martin Potthast 2010 geleitet hatte, zusammen – und übertraf mit diesem Hybridmodell die Leistung jedes einzelnen Wettbewerbsteilnehmers. Dieser Ansatz gilt bis heute als höchster Maßstab für Vandalismus-Erkennung auf Wikipedia, bestätigt Potthast.

Doch die Wikipedia-Gemeinde ist äußerst empfindlich, was Automatisierungen angeht. Man fürchtet, einen Teil des Community-Erlebnisses einzubüßen, das den Geist von Wikipedia einst ausgemacht hat. Wikipedia führt deshalb nur vorsichtig neue automatische Vandalismus-Kontrollen ein. CluebotNG, seit 2010 der Nachfolger des alten Cluebot, setzt ebenfalls auf maschinelles Lernen, um der Flut an Anschlägen auf Artikel Herr zu werden. Der Bot der nächsten Generation (dafür steht das NG) kann pro Minute bis zu 9000 Bearbeitungen prüfen. Damit halbiert sich die Zeit zur Durchsicht neuer Bearbeitungen.

Und wie sieht es in der deutschen Wikipedia aus? "Wir haben uns nur die englischen Artikel angesehen", sagt Adam M. Wilson über die Studie von Likens und ihm. "Aber es wäre sehr interessant, einen Vergleich zwischen verschiedenen Sprachen zu erstellen. Insbesondere auch, weil sich politische Kontroversen zwischen Ländern und Sprachregionen unterscheiden können."

Der Saure-Regen-Pionier Gene E. Likens ist mittlerweile 80 Jahre alt. Er forscht unter anderem am Cary Institute of Ecosystem Studies in Millbrook, US-Bundesstaat New York. In Anbetracht der Ergebnisse seiner Studie sorgt er sich um die Zukunft der Online-Enzyklopädie: "Die Gesellschaft sucht in Wikipedia Antworten. Schüler, Studenten, Lehrkräfte und Bürger sollten sich der Grenzen der Enzyklopädie bewusst sein." In umstrittenen Artikeln könnten innerhalb von Sekunden völlig gegensätzliche Informationen auftauchen.

Zwar deuteten ältere Untersuchungen darauf hin, dass die Fakten in den Artikeln immer häufiger mit wissenschaftlichen Arbeiten hinterlegt seien, Likens und Wilson plädieren dennoch für die Kenntlichmachung besonders umkämpfter Artikel – und raten den Nutzern, ein wachsames Auge auf die Quellen am Ende der Beiträge zu haben.