Francis Galton war nicht nur der Cousin von Charles Darwin, sondern ebenfalls ein Naturforscher. Er interessierte sich für vieles, unter anderem für Statistik. Sein Leben lang maß er alles, was er messen konnte, und suchte nach Werkzeugen, um diese Daten auch auszuwerten. Eine Frage, die dabei immer wieder auftauchte, galt (und gilt) der Korrelation: Wie hängen zwei Reihen von Messwerten miteinander zusammen? Oder: Hängen sie überhaupt miteinander zusammen?

Wenn ich zum Beispiel jeden Tag die Lufttemperatur, die durchschnittliche Sonnenscheindauer und mein Körpergewicht messe, dann kann ich versuchen Zusammenhänge zu entdecken. Wenn ich in einem Diagramm auf der x-Achse die Sonnenscheindauer auftrage und auf der y-Achse die Temperatur, dann wird sich vermutlich ein deutlicher Zusammenhang zeigen. Es wäre allerdings überraschend, wenn mein Körpergewicht ebenfalls auf irgendeine Weise mit der Lufttemperatur korrelieren würde.

In diesem Fall ist schon vorab leicht zu sehen, wo eine Korrelation zu erwarten ist. In der Realität ist dem aber nicht so. Nun kann man eine Regressionsanalyse durchführen und den "Korrelationskoeffizienten" berechnen. Der sieht so aus:

Formel für den Korrelationskoeffizienten
© Florian Freistetter
(Ausschnitt)
 Bild vergrößernFormel für den Korrelationskoeffizienten

Hinter dieser zumindest formal simplen Gleichung steckt ziemlich komplexe Mathematik. Wenn man zwei Datensätze X und Y vor sich hat, dann berechnet man zuerst die Kovarianz (cov) und teilt sie durch das Produkt der jeweiligen Standardabweichungen σ (sigma). Die Kovarianz hängt davon ab, ob sich die Datensätze in die gleiche Richtung ändern oder nicht; ob also zum Beispiel die Werte von X größer werden, während die Werte von Y sinken. Die Standardabweichung dagegen beschreibt, wie stark die Messwerte jedes einzelnen Datensatzes um ihren Mittelwert gestreut sind.

Der Korrelationskoeffizient ρ (rho) selbst ist eine Zahl, die zwischen -1 und +1 liegt. Ist der Koeffizient gleich null, dann besteht zwischen den Messwerten keinerlei Zusammenhang; je stärker er von null abweicht, desto stärker ist auch die Korrelation. Zwischen der Geschwindigkeit eines Autos und der zurückgelegten Entfernung besteht zum Beispiel eine positive Korrelation: Je schneller man fährt, desto weiter kommt man in einer bestimmten Zeit – der Korrelationskoeffizient beträgt hier +1. Eine negative Korrelation von -1 würde man erhalten, wenn man die zurückgelegte Entfernung mit dem Füllstand des Tanks vergleicht: Je weiter man fährt, desto weniger Benzin bleibt übrig.

Francis Galton hat den Korrelationskoeffizienten zwar nicht als Erster entdeckt; das war der französische Physiker Auguste Bravais. Aber er hat das Konzept nur wenig später unabhängig ein weiteres Mal gefunden und in der Welt der Forschung verbreitet. Mit dieser statistischen Kennzahl ist es leicht herauszufinden, ob zwischen zwei Datensätzen ein Zusammenhang besteht und wie stark er ist.

Man darf eine vorhandene Korrelation aber nicht mit einer Ursache-Wirkungs-Beziehung verwechseln! In meinem ersten Beispiel könnte eine statistische Analyse vielleicht tatsächlich eine (negative) Korrelation zwischen meinem Körpergewicht und der Sonnenscheindauer zeigen. Daraus folgt dann aber nicht, dass das Sonnenlicht auch die direkte Ursache für meinen Gewichtsverlust ist. Es könnte jedoch zum Beispiel sein, dass ich mehr Lust bekomme, Sport an der frischen Luft zu treiben, wenn draußen die Sonne scheint – was letztlich mein Gewicht reduziert.

Man muss aufpassen, was man mit statistischen Daten anstellt. Francis Galton ließ sich bei seinen Studien in eine gefährliche Richtung treiben. Er sammelte auch Daten über menschliche Eigenschaften wie Intelligenz und Verhalten und stellte Hypothesen über deren Vererbung auf. Er führte den Begriff der "Eugenik" ein und plädierte dafür, die menschliche "Rasse" durch gezielte "Zucht" zu verbessern. Galton starb 1911 – und musste die unmenschliche Realisierung seiner Ideen zur Rassenlehre nur wenige Jahrzehnte später nicht mehr mit ansehen.