Eine Erklärung, wie ihr seltsames Phänomen zu Stande kommt, haben die Forscher selbst nicht anzubieten. Es ist nicht einmal auszuschließen, dass Marcelo Montemurro und Damián Zanette einem Irrtum aufgesessen sind. Doch die Analyse der beiden Statistikexperten wirkt durchaus solide: Laut ihrer Auswertung durchlaufen häufige Allerweltssubstantive einen 14-Jahres-Zyklus. Innerhalb dieser Zeitspanne nimmt die Häufigkeit der Wörter gegenüber anderen erst zu und dann wieder ab.

Offenbar sind die Begriffe ihren eigenen Moden unterworfen – zumindest in der Welt der Bücher: Montemurro von der University of Manchester und Zanette vom Consejo Nacional de Investigaciones Cientficas y Técnicas im argentinischen Río Negro haben eine umfassende statistische Untersuchung in den Datenbanken von Google Books vorgenommen, in denen über viereinhalb Millionen englischsprachige Bücher digitalisiert auf Auswertung warten. Aber auch in anderen großen europäischen Sprachen, darunter Deutsch, wollen die beiden Forscher dasselbe Muster entdeckt haben.

Die Wissenschaftler wählten für ihre Analyse diejenigen 5630 Substantive aus, die in jedem Jahr seit 1700 mindestens einmal auftraten und insgesamt mindestens 50 000-mal vertreten waren. Für jedes Jahr erstellten sie dann eine Rangliste aller Begriffe nach ihrer Häufigkeit. Dadurch spielte es keine Rolle mehr, wie viele Bücher in einem Jahr insgesamt digitalisiert vorlagen. Maßgeblich war dann nur noch, ob und wie sich dieser "Rang" eines Worts von Jahr zu Jahr veränderte.

Sie beobachteten zweierlei: Erstens gab es immer wieder Phasen, in denen sämtliche Wörter an Rang verloren oder gewannen. In diesen Zeitabschnitten bearbeiteten die Autoren der Bücher also vermehrt bestimmte "Modethemen", durch die seltenere Wörter in die oberen Ränge gespült wurden. Anschließend tendierte das Vokabular wieder zurück zum Standard. Solche Phasen finden sich beispielsweise um die beiden Weltkriege im 20. Jahrhundert. Diese Art der Schwankung erfolgt unsystematisch und ist vermutlich an größere gesellschaftliche Entwicklungen gebunden.

Themen schwanken im Gleichklang

Zweitens aber beobachteten sie, dass – unabhängig von den großen Trends – jedes Substantiv mal in seinem Rang hinzugewann und mal verlor. Mit mathematischen Methoden suchten sie nach zyklischen Schwankungen in diesem Auf und Ab der einzelnen Wörter – und wurden fündig: Sehr stark vertreten waren Schwankungen mit Periodenlängen von um 14 Jahren, kürzere oder längere Perioden gab es dagegen erheblich seltener.

Wörter, deren Zyklen parallel verliefen, wiesen zudem starke inhaltliche Gemeinsamkeiten auf, eine typische Gruppe enthielt etwa die Begriffe "Schiff, Segel, Anker, Reise, Pirat, Bart". Manche dieser Wortfelder waren thematisch weit (Landwirtschaft, Ernährung), manche eng gefasst (vorkaiserzeitliches Rom, Planeten). Auch sie schwankten in ihrer relativen Häufigkeit, und darum wohl auch in der Beliebtheit der zu Grunde liegenden Themen, in Zyklen von rund 14 Jahren.

Wieso Themen und Begriffe diesen einheitlichen Kurzzeitzyklen unterliegen, wissen Montemurro und Zanette nicht. Es drängt sich kein gesellschaftlicher Prozess auf, der ebenfalls eine Zykluslänge von 14 Jahren hätte und diese Schwankungen antreiben könnte. Womöglich handelt es sich um ein eigenständiges Phänomen. Offen bleibt dabei allerdings, ob die Wissenschaftler alle Fallstricke umgangen haben, die bei einer Auswertung der Google-Books-Daten bekanntermaßen auftreten können. Nicht auszuschließen ist, dass ein unerkannter systematischer Fehler die Periodizität der Schwankungen hervorruft.

Die Auswahl und Digitalisierung der Bücher durch Google ist weitgehend unsystematisch erfolgt und alles andere als fehlerfrei. Sie entspricht keineswegs dem, was sich Linguisten für solche großen Sprachdatensammlungen wünschen. Dennoch profitieren Forscher immer wieder von der frei zugänglichen Datenbank. Im NGram Viewer kann jeder interessierte Laie selbst mit den Sprachdaten spielen und beispielsweise vergleichen, mit welcher Häufigkeit bestimmte Wortkombinationen über die letzten Jahrhunderte auftraten.