Spektrum.de: Herr Crane, Sie wollen Altgriechisch, Latein, klassisches Persisch, Althochdeutsch und andere Sprachen mittels Computerhilfe analysieren. Digital Humanities – ist das eine Art Google Translate für ausgestorbene Sprachen?

Gregory Crane: Nein, uns geht es um viel mehr. Wir wollen Zusammenhänge neu entdecken, die der Mensch ohne maschinelle Hilfe nicht finden kann. Eine Übersetzungshilfe hingegen kommt dem nahe, was die Menschen meistens machen: mit den neuen Technologien das zu tun, was sie schon immer getan haben.

Zum Beispiel?

Nehmen wir das Beispiel PDF oder auch einfach Webseiten: Sie ersetzen das gedruckte Buch. Wir machen damit das Gleiche, was wir zuvor mit Papier gemacht haben. Mehr nicht. Klar, man kann eine Edition von Homers "Ilias" digital produzieren – ohne dass sie mehr kann als die gedruckte Variante.

Automatische Übersetzungen verändern aber auch Ihr Fach, oder?

Gregory Crane
© mit frdl Gen. von Gregory Crane
(Ausschnitt)
 Bild vergrößernGregory Crane

Klar, sie erleichtern vieles. Und in der Tat haben schon die Wörterbücher einst fundamental geändert, was wir mit einem Text machen können: Viel mehr Menschen können nun Texte verstehen. Aber wir müssen weiterdenken. Gerade in den Geisteswissenschaften beschränken sich viele darauf, noch einen weiteren speziellen Aspekt mit den gleichen alten Methoden zu erforschen. Doch wir müssen uns fragen, wieso wir überhaupt Geisteswissenschaften betreiben und wie uns die Technologie hier helfen kann. Wenn wir riesige Mengen an Daten analysieren, können wir ganz neue Fragen stellen.

Verändert das Ihr Fach nicht komplett, wenn Sie auf einmal anstatt einzelner Textstellen riesige Datenmengen betrachten?

Das wird es in der Tat, und das ist gut so. Geisteswissenschaftler sind es momentan gewöhnt, dass sie jedes Wort in einer Quelle durchdenken können. Aber wir brauchen auch eine andere Perspektive: Wenn man die Ausgaben von 100 Jahren einer Zeitschrift oder Millionen Bücher analysieren will, braucht man auch statistische Methoden – man muss nahes Lesen mit dem Lesen aus der Distanz zusammenbringen.

Was suchen Sie in diesen rauen Mengen an Text, und wie gehen Sie vor?

Wir suchen Gemeinsamkeiten: Mit Hilfe von "Topic Modeling" findet der Computer ähnliche Ideen in Texten. Maschinen sind gut darin, Muster zu erkennen – dank "Topic Modeling" finden sie diese selbstständig mittels statistischer Inferenz, genauer gesagt, die Maschine erkennt wiederkehrende Muster zusammen auftretender Wörter. Das funktioniert besonders gut, wenn computerlinguistische Methoden und moderne Algorithmen miteinander kombiniert werden. Die Maschinen bringen uns so auf eine Spur, die wir ob der schieren Masse an Texten auf analoge Art und Weise nie gefunden hätten. Kein Mensch kann diese Masse an Texten lesen, geschweige denn den Überblick behalten und Muster darin finden.

Welche Muster finden Ihre Algorithmen beispielsweise?

Mit "Text Mining" wollen wir etwa eine riesige Sammlung an Büchern über die Geschichte des christlichen Denkens durchforsten. Wir haben bereits 35 Millionen an Wörtern in Altgriechisch analysiert und können jetzt sehen, was die großen Tendenzen darin sind. Wir bauen ein neues Verständnis für die Entwicklung christlichen Denkens. Ohne statistische Methoden wäre das nicht möglich.

Werden Statistik und Geisteswissenschaft neue Freunde?

Das sollten sie zumindest. Wir haben oftmals in den Geisteswissenschaften noch keine Ahnung von Statistik; wir haben manchmal geradezu eine Allergie gegen mathematische Analysen.

Sie wollen alte Texte mit Big-Data-Methoden analysieren. Bei Ihnen geht es nicht mehr nur um Statistik, sondern um moderne Algorithmen der künstlichen Intelligenz. Können Geisteswissenschaftler solche Methoden je selbst anwenden?

Aus meiner Sicht müssen wir das. Wenn wir die beste Forschung betreiben wollen – was immer unser Anspruch sein sollte –, brauchen wir die besten Algorithmen. Wir müssen sie selbst entwickeln, denn wir brauchen nicht nur alte Algorithmen, die bereits gemacht und für andere Anwendungen gedacht sind. Deshalb müssen wir programmieren lernen. Für manche Geisteswissenschaftler ist eine neue Form der Ausbildung notwendig.

Informatiker beschäftigen sich ihre gesamte Ausbildung lang damit, aber selbst unter ihnen gibt es Spezialisten für künstliche Intelligenz. Wie wollen Sie das quasi nebenbei lernen?

Ich finde, wir dürfen uns nicht zu sehr von den Informatikern abhängig machen. Nur wenn wir die Methoden der Informatik selbst beherrschen, kommen wir auf neue Ansätze. Manche Ideen entstehen nur, wenn Wissen beider Seiten im gleichen Gehirn zusammentrifft: das informatische und das geisteswissenschaftliche.

Haben Sie oder Ihre Kollegen denn Erfolge im Programmieren? Hat Ihre Idee den Praxistest schon bestanden?

Ich würde sagen, ich kann viele technischen Probleme lösen, wenn ich genug Zeit habe. Ein ehemaliger Student von mir arbeitet jetzt in den USA als Informatiker zusammen mit meinem akademischen Assistenten in Leipzig. Der Informatiker hat ein "Topic Model" für uns entwickelt, und mein Mitarbeiter in Leipzig, ein Geisteswissenschaftler, meinte: "Ich hätte das, was der Informatiker an einem Tag gemacht hat, selbst machen können – innerhalb von zwei Wochen." Er hat alles verstanden, was der Informatiker getan hat!

Der springende Punkt ist aber doch, dass er dafür 14-mal so lang gebraucht hätte. Ist es da nicht effizienter und auch sicherer, sich Hilfe von Informatikern zu holen, von Spezialisten?

Die Methoden, die wir brauchen, sind sehr teuer. In Deutschland ist es nicht möglich, mit unserem Budget einen privaten Entwickler zu bezahlen, das kostet schnell mal 100 000 Euro. Und die Mitarbeiter der Informatik an der Universität haben eigene Aufgaben, die müssen ihre Forschung machen – das sind ja keine Hilfsingenieure für uns. Deshalb ist es notwendig, dass wir die Sache selbst lernen, auch wenn es mehr Zeit braucht.

Sie organisieren derzeit das große Projekt "Global Philology", das vom Bundesministerium für Bildung und Forschung finanziert wird. Was ist Ihr Ziel?

Wir wollen uns zusammentun als Geisteswissenschaftler für eine gemeinsame Plattform. Wir wollen nicht länger separiert sein in Forscher, die sich mit Latein beschäftigen, und solche, die Arabisch erforschen. Wir bringen alle zu einer großen Gruppe zusammen, so dass wir eine bessere Infrastruktur aufbauen können.

Wollen Sie diese Plattform auch interdisziplinär nutzen? Kann man verschiedene Sprachen zusammen in ein System werfen?

Ja, das ist unser nächstes Ziel. Wir wollen ein größeres Thema angehen: Ich will Ideen von Altgriechenland bis heute vergleichen. Dafür muss man große Mengen von Text in verschiedenen Sprachen analysieren, unter anderem Griechisch, Latein, Armenisch und Arabisch. Das können wir, wenn wir die richtige Infrastruktur haben.

Automatische Übersetzungen sind fehlerbehaftet. Besteht nicht die Gefahr, dass die Maschinen etwas falsch verstehen?

Maschinelle Übersetzung ist noch nicht perfekt, sie wird sich allerdings auch dank syntaktischer und grammatikalischer Analysen immer mehr verbessern. Zudem leistet der Computer ja vor allem die Vorarbeit: Am Ende schauen wieder Menschen darauf, interpretieren und forschen – und überprüfen nicht zuletzt die Plausibilität.

Aber wenn der Algorithmus auf der falschen Spur ist: Kann es nicht sein, dass er Ihnen etwas Zentrales vorenthält?

Das "Topic Modeling" ist hier sehr viel besser als frühere Methoden, mit denen wir beispielsweise nach einzelnen Wörtern gesucht haben. Mittels "Topic Modeling" finden wir gemeinsame Ideen auch dann, wenn die Autoren der Werke nicht dieselben Wörter verwenden. Von daher hilft uns das maschinelle Lernen eher, Dinge zu entdecken, die wir früher übersehen hätten.

Wie fehleranfällig ist das Digitalisieren der alten Texte?

Die optische Buchstabenerkennung wird immer besser. Frakturschrift war bisher noch schwierig für die automatische Texterkennung. Aber gerade digitalisieren wir 400 000 deutsche Bücher aus den Jahren zwischen 1500 und 1800. Dank neuer Methoden geht das schon sehr gut. Wir haben eine Fehlerrate von 10 bis 20 Prozent. Aber daraus lernen wir und verbessern das System weiter.

"Wenn wir riesige Mengen an Daten analysieren, können wir ganz neue Fragen stellen"
(Gregory Crane)

Ich könnte mir vorstellen, dass nicht alle Geisteswissenschaftler begeistert sind von Ihren Big-Data-Methoden. Erfahren Sie Widerstand in Ihrem Fach?

Natürlich sind viele skeptisch. Und andere sagen: Ich bin offen für digitale Methoden, wenn ich selbst nichts Neues lernen muss. Aber ich sage: Wenn wir jetzt nichts Neues lernen und anwenden, werden wir auch keine neuen Erkenntnisse hervorbringen. Wir haben in diesem alten Fach Altgriechisch und Altlatein jahrtausendelang studiert. Doch jetzt stehen wir wieder am Anfang. Wir sollten uns auf diese neue Chance einlassen. Wir müssen alle unsere Ideen von Sprache überdenken.

Inwiefern?

Bisher heißt es bei uns im Fach zum Beispiel: Diese Redewendung findet man oft im Spätkyrillischen. Jetzt muss man sagen: Diese Redewendung taucht in 40 Prozent der Zeit in dieser Periode auf und später nur in 20 Prozent. Und das hier sind die genauen Daten. Die Basis, auf der unser Selbstverständnis steht, muss zerrissen und wieder zusammengesetzt werden.

Das erfordert Mut von Ihren Kollegen. Was versprechen Sie ihnen für die Zukunft?

Wenn wir Texte und Bücher auf diese Weise analysieren, haben wir so etwas wie ein Hubble-Teleskop für unsere Kultur. Wir können zum ersten Mal Geschichte ganz neu betrachten. Wer hat wen zitiert? Wir können Ketten von Einfluss automatisch finden und nachweisen, Netzwerke von Ideen und wie sie durch die Welt ziehen.

Revolutionen technologischer Art kommen häufig aus den USA. Sind Sie in Deutschland mit Ihrer Forschung gut aufgehoben?

Unbedingt. Deutschland schätzt und fördert seine Geisteswissenschaften auf eine Art, die ich aus dem angloamerikanischen Raum nicht kenne. Wenn Digital Humanities eine Chance haben, dann hier. Deutschland ist ein Kulturland, darauf kann man stolz sein. Meine Kollegen sind zu bescheiden, aber ich sehe hier eine Möglichkeit, wo von Deutschland eine wissenschaftliche Revolution ausgehen kann.