Direkt zum Inhalt

Die fabelhafte Welt der Mathematik: Wie sich das beste Startwort bei »Wordle« berechnen lässt

Ein Wort, fünf Buchstaben, maximal sechs Versuche: 2022 waren viele im »Wordle«-Fieber. Mit Hilfe der Informationstheorie lässt sich das beste Startwort mathematisch berechnen.
Ganz viele vertstreute Buchstaben
Welches Startwort bevorzugen Sie bei »Wordle«?

Wie haben Sie die letzten Jahre verbracht, in denen die Corona-Pandemie wütete und die Freizeitmöglichkeiten eingeschränkt waren? Der britische Softwareentwickler Josh Wardle und seine Partnerin vertrieben sich die Zeit mit Kreuzworträtseln der »New York Times«. Irgendwann fiel Wardle ein Spiel wieder ein, das er sich so ähnlich bereits einige Jahre zuvor ausgedacht hatte. Das an seinen Nachnamen angelehnte »Wordle« sollte im Jahr 2022 zum absoluten Trend werden: Die Timelines auf Twitter wurden von »Wordle«-Ergebnissen der Nutzerinnen und Nutzer geflutet. Auch wenn sich das Spiel darum dreht, ein täglich wechselndes Wort zu erraten, verbirgt sich dahinter jede Menge Mathematik.

Bereits 2013 hatte Wardle die grundlegende Idee dazu: Man hat sechs Versuche, ein Wort aus fünf Buchstaben anhand von Hinweisen in sechs Versuchen richtig zu bestimmen. Dafür tippt man zunächst ein Wort in fünf freie Felder ein, zum Beispiel »Start«, woraufhin sich die Felder nach der Eingabe verfärben: grün, wenn der Buchstabe im Lösungswort an genau dieser Stelle auftaucht; gelb, wenn der Buchstabe zwar in der Lösung enthalten ist, aber an einem anderen Ort; und grau, falls der Buchstabe nicht Teil der gesuchten Lösung ist. Diesen Hinweisen folgend kann man ein zweites Wort eintippen und so Informationen über die Buchstaben des Lösungsworts sammeln, bis man auf die gesuchte Lösung stößt. Das Prinzip erinnert etwas an das in den 1970er Jahren populäre Spiel »Mastermind«.

Beispiel für ein »Wordle«-Spiel

Eingeben darf man jedes englische Wort, das aus fünf Buchstaben besteht, wovon es etwa 10 000 gibt. Da diese Liste aber auch höchst ungewöhnliche Ausdrücke wie »aahed« (»aah« sagen) enthält, ist das Lösungswort Teil einer wesentlich kürzeren Liste mit 2309 geläufigen englischen Ausdrücken. Ziel ist es, das Lösungswort in möglichst wenigen Versuchen zu finden. Was den Nervenkitzel erhöht: Man kann das Spiel nicht beliebig oft hintereinander spielen. Jeden Tag gibt es nur ein Lösungswort – und es ist für alle Spielerinnen und Spieler auf der Welt dasselbe. Das verleiht dem Spiel eine soziale Komponente, die vermutlich zu dem großen Zuspruch beigetragen hat.

»Wordle« war ein unverhoffter Erfolg

Darauf hatte Wardle aber gar nicht abgezielt. Er griff »Wordle« Anfang des Jahres 2021 wieder auf, um daraus ein einfach zu bedienendes Spiel zu machen, damit er sich mit seiner Partnerin die Zeit vertreiben konnte. Und so kam es, dass sie mehrere Monate lang die einzigen beiden Nutzer waren. Irgendwann bekamen ihre Familienmitglieder Wind davon und Wardle beschloss im Oktober 2021, es auf seiner persönlichen Website kosten- und werbefrei anzubieten. Kurz darauf ging »Wordle« durch die Decke: Spielten am 1. November noch 90 Nutzerinnen und Nutzer täglich »Wordle«, waren es einen Monat später schon 300 000 – und eine weitere Woche später bereits zwei Millionen User.

Im Januar 2022 gab die »New York Times« bekannt, die Rechte an »Wordle« für einen niedrigen siebenstelligen Betrag erworben zu haben. Das erhöhte die Reichweite des Spiels weiter: Im März 2022 hatten mehrere zehn Millionen Menschen aus der ganzen Welt bereits mindestens einmal »Wordle« gespielt. Ein besonderes Feature ist, dass man nach einer Partie den Farbcode seines Spiels (also die gefärbten Spielfelder) als Emoji herunterladen und dieses auf sozialen Medien wie Twitter verbreiten kann, um sich mit anderen zu vergleichen. Die meisten Menschen brauchen im Schnitt etwa vier Versuche, um ein »Wordle« zu lösen, alles darunter gilt als Erfolg.

Wenn Sie sich schon mal an »Wordle« versucht haben, dann wissen Sie: Das Ergebnis hängt stark vom gewählten Startwort ab. Zum Beispiel ist das von mir genannte Beispiel »Start« als erster Versuch nicht sehr schlau, denn es enthält zweimal den Buchstaben T. Damit hat man also eine von fünf Stellen verschwendet, an der man Informationen über andere Buchstaben hätte sammeln können. Natürlich kann man auch Glück haben und das Lösungswort enthält ebenfalls zwei T – aber in allen anderen Fällen lässt sich damit keinerlei Information gewinnen. Laut »New York Times« ist das beliebteste Startwort »adieu« oder »audio«. Da sie aus vielen Vokalen bestehen, ist damit schnell klar, welchen Klang das Lösungswort hat. Aber handelt es sich dabei wirklich um die cleverste Wahl?

Die Wahl zwischen Informationsgehalt und Trefferquote

Vielleicht sollte man lieber mit einem Wort wie »Texas« beginnen: Wenn ein seltener Buchstabe wie X im Lösungswort enthalten ist, hat man im ersten Schritt bereits eine riesige Menge der 2309 möglichen Lösungen ausgeräumt: Tatsächlich enthalten nur 37 der Wörter ein X. Allerdings ist die Wahrscheinlichkeit hoch, dass im Lösungswort kein X auftaucht – in diesen Fällen ist die Information kaum etwas wert. Weiß man, dass das Lösungswort kein X besitzt, wird der Raum der Möglichkeiten lediglich von 2309 auf 2272 reduziert. Daher muss man abwägen: Legt man Wert darauf, möglichst viel Information zu gewinnen oder möchte man lieber mit hoher Wahrscheinlichkeit einen Buchstaben richtig erraten?

Dass Information und Wahrscheinlichkeit zusammenhängen, ist nicht neu. Schon der Mathematiker Claude Shannon (1016–2001), der Begründer der Informationstheorie, hatte das erkannt und definierte auf diese Weise ein Maß für den Informationsgehalt. Angenommen, man hat einen Raum mit möglichen Ereignissen – in unserem Fall die 2309 Lösungswörter von »Wordle«. Ein Bit an Information entspricht dann jener Rückmeldung, die den Lösungsraum halbiert, zum Beispiel: »Das Lösungswort enthält den Buchstaben S« (tatsächlich besitzt etwa die Hälfte aller Lösungen mindestens ein S). Zwei Bit an Information räumen drei Viertel der Lösungen aus (zum Beispiel: Das Lösungswort enthält ein T) und bei drei Bit an Information bleiben nur noch ein Achtel aller Wörter übrig. Das heißt: Je wahrscheinlicher ein Buchstabe in der Lösung enthalten ist, desto kleiner sein Informationsgehalt.

Bedeutung von Information | Pro Bit an Information halbiert sich der Raum an Möglichkeiten – etwa der in Frage kommenden »Wordle«-Lösungswörter.

Das lässt sich mathematisch ausdrücken. Die Wahrscheinlichkeit p, ein Wort mit einer bestimmten Eigenschaft (etwa mit dem Buchstaben A) zu finden, lässt sich berechnen, indem man die Anzahl aller Wörter mit A (MA) durch die Anzahl aller Wörter M teilt: p = MA/M. Gleichzeitig reduziert die Information I (»Das Wort enthält ein A«) den Raum aller Möglichkeiten M um den Faktor ½I: MA = ½I·M. Indem man beide Gleichungen ineinander einsetzt, kann man auf eine Formel schließen, die Informationsgehalt und Wahrscheinlichkeit miteinander verbindet: p = ½I·M/M, also: p = ½I. Das lässt sich auch umkehren und nach I auflösen: I = −log2p.

»Niemand weiß, was Entropie wirklich ist«John von Neumann, Informatiker, Physiker und Mathematiker

Auf diesen erstaunlichen Zusammenhang zwischen Wahrscheinlichkeit und Informationsgehalt war Shannon im Jahr 1948 gestoßen. Laut einem 1971 bei »Scientific American« erschienenen Artikel soll Shannon gesagt haben: »Meine größte Sorge war, wie ich (diese neue Größe I) nennen sollte. Ich dachte daran, sie ›Information‹ zu nennen, aber das Wort wurde zu oft benutzt. Also entschied ich mich für ›Unsicherheit‹. Als ich mit John von Neumann darüber sprach, hatte er eine bessere Idee: ›Du solltest sie Entropie nennen, aus zwei Gründen. Erstens wird die von dir formulierte Funktion in der statistischen Mechanik unter diesem Namen verwendet, sie hat also bereits einen Namen. Zweitens – und das ist noch wichtiger – weiß niemand, was Entropie wirklich ist, so dass du in einer Debatte immer im Vorteil sein wirst.‹« Seither heißt die oben definierte Größe I tatsächlich Entropie.

Aber zurück zu »Wordle«: Entropie kann dabei helfen, ein geeignetes Startwort zu finden. Denn je höher die Entropie eines Worts, desto höher der Informationsgewinn. Allerdings geht eine hohe Entropie immer mit einer geringen Trefferquote einher. Man sollte also ein ausgewogenes Verhältnis aus beiden Faktoren finden, um ein möglichst gutes Anfangswort zu wählen. Dafür kann man zum Beispiel den Entropie-Erwartungswert für alle möglichen Eingaben berechnen, wie es der Mathematiker Grant Sanderson in seinem Youtube-Kanal »3Blue1Brown« getan hat. Dafür ging Sanderson folgendermaßen vor: Zunächst berechnete er für jedes der etwa 10 000 Eingabewörter die Häufigkeit der Farbmuster, die anhand der 2309 Lösungswörter entstehen können. Zum Beispiel könnten fünf graue Felder (alle Buchstaben falsch) 250-mal auftauchen; ein grünes gefolgt von vier grauen Felder (erster Buchstabe korrekt und an der richtigen Stelle) hingegen nur 15-mal und so weiter. Je häufiger ein Farbmuster entstehen kann, desto höher die Wahrscheinlichkeit, dieses nach der Eingabe anzutreffen. Gleichzeitig liefert der Farbcode Informationen, die man durch Entropie bemessen kann: Da einige Lösungswörter ausgeschlossen werden, verkleinert sich der Lösungsraum.

Mögliches Farbmuster nach der Eingabe

Um also herauszufinden, wie viel Information man durch ein Anfangswort durchschnittlich erhalten wird, kann man die Entropie zu jedem möglichen dazugehörigen Farbcode berechnen und mit der Wahrscheinlichkeit des Auftretens gewichten: Man berechnet also einen Erwartungswert. Wie sich herausstellt, schneidet das Wort »soare« (veraltete Bezeichnung für einen jungen Falken) am besten ab, es hat einen Erwartungswert von 5,89 Bit. Das heißt: Wenn man mit diesem Wort beginnt, schrumpft der Raum der möglichen Lösungswörter auf durchschnittlich 2−5,89 = 1,7 Prozent der Möglichkeiten – es kommen also durchschnittlich noch etwa 22 Lösungswörter in Frage.

Man sollte mit »soare« starten, um gut abzuschneiden

Aber »Wordle« besteht nicht nur aus einem Rateversuch, sondern mehreren. Indem man eine geeignete Kombination von zwei aufeinander folgenden Wörtern wählt, lässt sich die Anzahl der möglichen Lösungen eventuell stärker einschränken, als wenn man mit »soare« startet. Diesem Ansatz ging Sanderson ebenfalls nach. Dafür ging er folgendermaßen vor: Angenommen, nach der Eingabe von »soare« erhält man fünf graue Kästchen. Man weiß also nur, dass die Buchstaben s, o, a, r und e nicht Teil des Lösungsworts sind. Davon ausgehend prüfte Sanderson, welches zweite Farbmuster für alle möglichen nachfolgenden Eingaben entstehen kann – und berechnete damit den Entropie-Erwartungswert des zweiten Eingabeworts. Falls nach dem Startwort »soare« alle Felder grau sind, ist die beste Wahl für die zweite Eingabe »clint«.

Nun kann man auch für die anderen Farbmuster, die nach der Eingabe von »soare« erscheinen können, das passendste zweite Wort suchen. Für das Muster grün gefolgt von viermal grau liefert beispielsweise »thilk« (veraltet: das, dieses) das beste Ergebnis. Wenn man nun die Entropie der zweiten Wörter mit den dazugehörigen Wahrscheinlichkeiten gewichtet, erhält man einen Wert von 4,11. Das heißt: Mit dem Startwort »soare« gewinnt man durchschnittlich 5,89 Bit an Information und durch das optimale zweite Wort dann weitere 4,11 Bit. Würde man »Wordle« perfekt spielen, erhält man also nach zwei Versuchen durchschnittlich 10 Bit an Informationen – das heißt der Lösungsraum verkleinert sich um den Faktor 2−10, es bleiben durchschnittlich 2,25 Lösungswörter übrig.

Optimale zweite Eingabe | Hat man »soare« als Anfangswort bei »Wordle« eingegeben, ergeben sich je nach Farbcode unterschiedliche zweite Eingaben, die ein optimales Ergebnis liefern.

»Slane« als Startwort könnte eine noch bessere »Wordle«-Strategie sein

Wenn man die optimale Kombination von zwei Wörtern betrachtet, erweist sich eine andere Auswahl als passender: »slane« (ein spezieller Spaten zum Torfstechen) als Anfangswort liefert zwar durchschnittlich nur 5,77 Bit an Information, eine optimale zweite Eingabe liefert im Mittel jedoch weitere 4,27 Bit. Damit landet man bei insgesamt 10,04 Bit – und reduziert die 2309 Möglichkeiten auf durchschnittich 2,19 Worte, also knapp mehr als zwei. Möchte man einen möglichst fähigen Algorithmus entwerfen, ist es wichtig, auch die zweite Wortwahl zu berücksichtigen. Doch für menschliche Spieler spielt das wohl keine große Rolle – schließlich kann man sich unmöglich für alle nach »slane« auftretenden Farbmuster merken, welches Folgewort am geeignetsten ist. Daher sollte es keinen großen Unterschied machen, ob man ein Spiel mit »soare« oder »slane« startet.

Trotzdem ist es durchaus nützlich, die Informationstheorie zu berücksichtigen, wenn man »Wordle« spielt, wie ein eindrucksvolles Beispiel im »Quanta Magazine« zeigt. Angenommen, Sie haben das Spiel mit »bloat« begonnen und Grau, Grau, Grau, Gelb, Gelb erhalten. Dann wissen Sie: Das Lösungswort enthält ein A und ein T (jedoch an anderer Stelle) und kein B, L oder O. Als zweites versuchen Sie Ihr Glück mit »watch«. Und Sie sind fast am Ziel: Das erste Feld ist grau, die anderen vier grün. Also ist der Anfangsbuchstabe falsch, alle anderen sind richtig. Wie machen Sie weiter?

Welches Wort würden Sie als nächstes eingeben?

Sie könnten nun einfach raten, zum Beispiel »match«. Doch aus informationstheoretischer Sicht ist ein anderer Ansatz ergiebiger: Geben Sie »chimp« ein. Klar, »chimp« kann unmöglich das Lösungswort sein. Aber es hilft, den Lösungsraum einzugrenzen. Denn nach der Eingabe von »watch« kommen noch immer vier Wörter in Frage: catch, hatch, match und patch. Wenn man diese nacheinander eingibt, kann man das Spiel zwar noch gewinnen, wird aber unter Umständen schlecht abschneiden. Durch die Eingabe von »chimp« ist hingegen sichergestellt, welcher Anfangsbuchstabe (C, H, M oder P) der richtige ist. So hat man das Spiel also notwendigerweise nach vier Versuchen gewonnen. Allerdings ist dieser Schritt nur möglich, wenn man »Wordle« nicht im »Hard mode« spielt – denn dieser Spielmodus zwingt die Spieler, mit den bereits richtig erratenen Buchstaben weiterzuspielen.

Ich werde jedenfalls mein Glück künftig mit »soare« als Startwort versuchen. Mal schauen, wie viele Ansätze ich beim nächsten »Wordle« brauche. In Deutschland liegt die durchschnittliche Anzahl von Versuchen pro Kopf bei 4,01 – vielleicht schaffen wir es ja mit Hilfe der Informationstheorie, in den kommenden Monaten den Rekordhalter Schweden (im Mittel 3,72 Versuche) zu schlagen.

​​Was ist euer Lieblingsmathetheorem? Schreibt es gerne in die Kommentare – und vielleicht ist es schon bald das Thema dieser Kolumne!

Schreiben Sie uns!

1 Beitrag anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.