Freistetters Formelwelt: So nehmen wir aus mathematischer Sicht Musik wahr

Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.
Brian May, der Gitarrist der Rockband Queen, hat im Jahr 2007 seine Dissertation über interplanetaren Staub beendet. Der Berufsmusiker Wilhelm Herschel war gleichzeitig ein berühmter Astronom, der den Planeten Uranus entdeckt hat. Werner Heisenberg hat Klavier gespielt, Albert Einstein Geige und Richard Feynman Bongo-Trommel. Musik ist für Forschende aber nicht nur ein Hobby; ihre formalen Grundlagen sind selbst in der Mathematik verhaftet. Naturwissenschaft und Musik sind eng verbunden, was aber nichts daran ändert, dass es auch Menschen wie mich gibt, die weder musikalisch sind noch Töne treffsicher erkennen können. Deswegen kann ich folgende Formel nur mathematisch wertschätzen:
Diese Gleichung hat der US-amerikanische Psychologe Stanley Smith Stevens 1937 entwickelt, um die wahrgenommene Tonhöhe zu beschreiben. Rein physikalisch lässt sich ein Ton durch die Einheit Hertz darstellen; der Standard-Kammerton entspricht zum Beispiel in vielen Ländern einer Schwingung von 440 Hertz.
Die menschliche Wahrnehmung funktioniert aber in vielen Fällen nicht so eindeutig wie die Physik von Schwingungsphänomenen. Ob wir in der Lage sind, Unterschiede in der Tonhöhe zu erkennen, hängt zum Beispiel auch davon ab, wie hoch der Ton ist. Stevens hat sich mit dieser subjektiven Wahrnehmung beschäftigt und entsprechende Maßeinheiten dafür geschaffen. Für die Lautheit, also die empfundene Lautstärke von Schall, hat er die Einheit »Sone« definiert und sich auch mit der »Tonheit« beschäftigt. Das ist die Wahrnehmung von Tonhöhen, und die zugehörige Einheit hat Stevens »mel« genannt (abgeleitet von melody).
Auf dieser Mel-Skala soll ein Ton, der doppelt so hoch wahrgenommen wird, auch den doppelten Wert der Tonheit erhalten. Das Resultat ist die obige Formel, mit der man zwischen Mel und Hertz umrechnen kann (es ist nur eine von vielen möglichen Formulierungen dieses Zusammenhangs). Bei Frequenzen bis ungefähr 500 Hz ist die Relation tatsächlich weitestgehend proportional: Eine Verdopplung der Frequenz führt auch zu einer Verdopplung der Tonheit, gemessen in mel. Eine Oktave entspricht in etwa der Wahrnehmung einer doppelt so großen Tonhöhe. Bei größeren Frequenzen wird der Zusammenhang aber nichtlinear. Für eine Verdopplung der empfundenen Tonhöhe können zwei oder mehr Oktaven nötig sein.
Von Audiokompression bis Sprachassistent
Diese Art von Forschung ist wichtig für das Gebiet der Psychoakustik, hat aber auch konkrete Anwendungen, die wir mittlerweile überall in unserem Alltag antreffen. Immer mehr elektronische Geräte ermöglichen es heute, mit uns per Stimme zu kommunizieren. Damit das funktioniert, müssen sie in der Lage sein, Sprache automatisch und verlässlich zu erkennen. Die Geräte müssen verstehen, was gesagt worden ist – in welcher Tonlage dabei gesprochen wurde, darf den Prozess nicht beeinflussen. Dafür braucht es entsprechende Filter, die unter anderem das Konzept der Mel-Skala nutzen.
Die Darstellung von Sprache oder Musik mithilfe des nichtlinearen Mel-Modells wird aber auch bei der Audiokompression verwendet: Wenn wir nicht mehr in der Lage sind, Unterschiede zwischen Tönen wahrzunehmen, dann muss die darüber hinausgehende akustische Information nicht digitalisiert werden. So lässt sich die Menge an zu übertragenden Daten reduzieren, was äußerst praktisch für das Streaming von Musik oder die mobile Telefonie ist.
Die Wissenschaft ist zwar in der Lage, die Welt auf eine Weise zu beschreiben, die weit über unsere Wahrnehmung hinausgeht. Am Ende müssen wir die Welt aber trotzdem immer noch als Menschen erfahren und wir benötigen die entsprechenden mathematischen Mechanismen, um zwischen der Realität und unseren Sinnen zu vermitteln.
Schreiben Sie uns!
Beitrag schreiben