Forensische Phonetik: Was die Stimme wirklich verrät

Jeder spricht auf eine eigene Art. Der eine redet schnell, die andere langsam. Manche haben einen Dialekt, andere verschlucken Wortendungen oder lispeln. Es gibt hohe und tiefe Stimmen, melodische und monotone. Die Summe dieser Eigenheiten macht die menschliche Stimme beinahe unverwechselbar – und deshalb auch zu einem wertvollen Instrument in der Kriminalistik. Mit Methoden der forensischen Phonetik können Expertinnen und Experten selbst feinste Details zwischen den Zeilen hören. Auf diese Weise enttarnen sie, was sich hinter gesprochenen Worten versteckt.
Die Literatur hat dieses Forschungsgebiet ebenfalls entdeckt. In der Thriller-Reihe »Auris« – lateinisch für »Ohr« und zudem Spitzname des Protagonisten Matthias Hegel – rücken die Autoren Sebastian Fitzek und Vincent Kliesch die forensische Phonetik ins Zentrum der Handlung der insgesamt sechs Bände.
»Hat man erst einmal verstanden, dass Töne physikalische Fakten sind, dann eröffnet sich einem eine Welt, die den weitaus meisten Menschen verborgen bleibt«Dort kann der forensische Phonetiker Hegel kleinste Abweichungen in einer Stimme identifizieren. Ihm genügen subtile Veränderungen im Klang, um Lügen zu enttarnen, Verbrechen aufzuklären oder Krankheiten zu erkennen. Er ortet eine Leiche, weil ihm das Brummen einer im Keller stehenden Tiefkühltruhe seltsam vorkommt, diagnostiziert bei einer Person einen Schlaganfall an deren veränderter Sprechweise und enttarnt Geheimnisse seines Gegenübers allein an den Schwankungen in dessen Stimme.
Doch wie realistisch sind die im Thriller dargestellten Fähigkeiten? Wo hört wissenschaftliche Präzision auf und fängt literarische Fiktion an?
Physikalisch betrachtet ist unsere Welt von Schwingungen durchzogen. Stimmen und Töne zum Beispiel sind nichts anderes als minimale Luftdruckschwankungen – Wellen, die sich durch die Luft ausbreiten. Das Gehirn verarbeitet sie als akustische Signale.
Täglich umgibt uns ein vielgestaltiger Chor aus Störgeräuschen, Hintergrundlärm und Stimmengewirr. Das Handwerk der forensischen Phonetik besteht darin, aus diesem Klangbild einzelne Eigenheiten herauszufiltern und die feinen Nuancen zu identifizieren.
Das Ungesagte verstehen
Ein Verbrechen. Keine Verdächtigen. Aber eine anonyme Aufzeichnung, die helfen könnte, die Tat aufzuklären. Hier kommt die forensische Phonetik ins Spiel. Zunächst erfolgt eine Stimmanalyse.
Dazu braucht es vor allem ein geschultes Gehör: Die Aufmerksamkeit darf sich nicht darauf richten, was, sondern vielmehr darauf, wie etwas gesagt wird. Ziel ist es, biologische, soziale oder regionale Merkmale sowie individuelle sprachliche Besonderheiten herauszuhören. Das bedürfe eines intensiven Trainings, sagt der Linguist und Phonetiker Oliver Niebuhr, der die beiden »Auris«-Autoren ab dem zweiten Band wissenschaftlich beraten hat. »Evolutionär sind Menschen darauf getrimmt, nur ausgewählte Frequenzen zu hören und andere auszublenden«, erklärt er. »Wir sind zwar in der Lage vorherzusagen, in welchem Frequenzbereich die nächste Information liegt, konzentrieren uns dann aber verstärkt darauf und überhören den Rest.« Ausgebildete Ohren dagegen sind in der Lage, »analytisch« zu hören.
Ist es einem Ermittlungsteam bereits gelungen, eine verdächtige Person zu finden, vergleicht es meist die Stimmen: Ist auf der Aufnahme wirklich die oder der Festgenommene zu hören? Mit akustischen Messungen lassen sich zusätzliche Eigenschaften erfassen, die mit dem bloßen Ohr nicht wahrnehmbar sind. Einen eindeutigen »phonetischen Fingerabdruck« gebe es allerdings nicht, sagt Niebuhr: Kein Mensch lasse sich allein anhand gemessener Frequenzen zweifelsfrei identifizieren. Dennoch erlaube die Stimme es, gewisse Rückschlüsse auf die Identität der Sprechenden zu ziehen.
Zu solchen individuellen Merkmalen einer Person zählen etwa die Schwingungsformen der Stimmlippen. Sie lassen eine Stimme rau, gepresst oder weich klingen. Ebenso einflussreich sind Variationen im Vokaltrakt, dem Resonanzraum zwischen Stimmlippen und Mundöffnung. Sie verursachen beispielsweise den stark nasalen Klang, wenn jemand erkältet ist. Dort verstärken sich bestimmte Obertöne des Frequenzspektrums. Diese Resonanzen werden als Formanten bezeichnet. Sie prägen den individuellen Sprachklang und ergeben für verschiedene Laute ein charakteristisches Muster.
Auch anatomische Besonderheiten spielen eine Rolle: Die Länge der Stimmlippen legt die Grundfrequenz und damit die Sprechstimmlage fest, also als wie hoch oder tief eine Stimme wahrgenommen wird. Ebenso beeinflusst die Länge des Vokaltrakts den Klang. Der lässt sich jedoch durch Artikulation flexibel verändern.
Herkunft prägt die Stimme
Zu den Charakteristika, die helfen können, Tatverdächtige zu überführen, zählen zudem sprachliche Gewohnheiten. Das sind etwa Regionalsprache, Soziolekt oder Akzent. Ihre Bestimmung gilt als Standardelement in der Stimmenanalyse.
Dialekte zeigen sich nicht nur in der Wortbildung. Niebuhr ergänzt, dass auch die Artikulation das Sprachbild beeinflusst: »Eine Person mit typisch bayrischem Akzent öffnet den Mund häufiger weit und schiebt die Zunge öfter nach hinten in den Rachenraum. Das führt im Gegensatz zu einer hamburgischen Prägung dazu, dass die Stimme tiefer und wuchtiger klingt.« Neben der Aussprache formen wiederkehrende Muster wie Wortwahl, Satzbau oder Floskeln die individuelle Stimme. Sprechtempo, Melodik und Pausenverhalten tragen zusätzlich zum akustischen Gesamtbild bei.
Ein akustisches Porträt
Der fiktionale Phonetiker Hegel erstellt im Roman ein »akustisches Phantombild« und sagt körperliche Merkmale seiner Zielpersonen verlässlich voraus. »Tatsächlich lässt sich das Alter eines Menschen anhand der Stimme grob abschätzen«, sagt Oliver Niebuhr, »jedoch nur innerhalb eines Zehnjahresfensters.«
Wie präzise dies gelingt, hänge auch davon ab, wie gut jemand mit seiner Stimme in der Vergangenheit umgegangen ist. So klänge ein starker Raucher oder eine Metal-Sängerin oft älter, als sie eigentlich sind. Auch das Geschlecht spiele eine Rolle: Bei Frauen verändere sich die Stimme im Lauf des Lebens kontinuierlich, bei Männern hingegen in Sprüngen.
Während sich das Alter zumindest in Dekaden eingrenzen lässt, bleibt jede Aussage über die Körpergröße pure Spekulation. Klingt jemand groß, sagt das lediglich etwas über die Länge des Vokaltrakts aus, die nicht zwangsläufig etwas mit der Körpergröße zu tun hat.
Zudem lässt sich die gehörte Größe manipulieren: Ein Lächeln erzeugt eine höhere, unterwürfige Stimme, während vorgeschobene Lippen für einen tieferen, wuchtigen Klang sorgen. Dadurch verschwimmen auch die Grenzen zwischen männlicher und weiblicher Stimme und erschweren die biologische Zuordnung.
Ähnlich verhält es sich mit dem Gewicht. Ein »großer gepolsterter Resonanzkörper«, wie ihn der Protagonist Hegel beschreibt, lässt sich akustisch kaum bestimmen. Die Stimme erlaubt keine Rückschlüsse auf das Körpergewicht einer Person. Ein Hinweis könnte allenfalls die Atmung sein, etwa in Form eines ausgeprägten Schnaufens. Doch das ist keineswegs eindeutig: Ein solcher Klang könnte auch auf eine Atemwegserkrankung hinweisen.
An dieser Stelle überschreiten die Autoren die Grenzen der forensischen Praxis. Die spekulative Interpretation des Gehörten dient vor allem der literarischen Dramaturgie und entspricht nicht der wissenschaftlichen Realität. Angelika Braun ist Professorin für Phonetik an der Universität Trier und blickt kritisch auf diese Art der Einbindung forensischer Phonetik.
Ebenso grenzwertig ist die Fähigkeit des Protagonisten Hegel, Angst, Trauer oder mentale Erkrankungen zu hören. Tatsächlich zeigen Braun zufolge einige Menschen mit Depressionen zwar eine charakteristische Stimmsignatur mit einem leiseren Klang, wenig Variation in der Tonhöhe und einer geringen Lautstärke. Das jedoch liegt an der Muskelspannung und der Atemsteuerung, nicht »an einem anatomischen Dehnen der Stimmbänder«, wie es im Roman heißt.
Bei vertrauten Menschen verrate die Stimme viel über ihre Befindlichkeit, aber nur, weil man in diesem Fall meist gut einschätzen könne, was sich verändert hat, erklärt Angelika Braun. Das setze allerdings voraus, dass das normale Sprachverhalten und die Reaktion in unterschiedlichen Situationen bekannt seien.
Bei einer fremden, anonymen Stimme muss man mit solchen Schlüssen jedoch höchst vorsichtig sein. Manche Menschen klingen dauerhaft monoton und traurig, andere immer melodiös. Solche Spekulationen seien ausdrücklich untersagt, betont Braun und verweist auf den »Code of Practice« der International Association for Forensic Phonetics and Acoustics, kurz IAFPA. Dieser legt Richtlinien für ethisch korrektes und wissenschaftlich fundiertes Vorgehen fest. Er schließt explizit aus, emotionale Zustände aus dem Klang der Stimme abzuleiten – schlichtweg, weil solche Interpretationen weder verlässlich noch eindeutig sind.
Auch vor einer solchen Ferndiagnose warnt die Phonetikerin Angelika Braun. Zwar führen Schlaganfälle häufig zumindest zeitweise zu einer Veränderung der Sprache. Doch ein vergleichbares Sprachbild entstehe auch durch andere, viel harmlosere Ursachen: zum Beispiel das Sprechen mit vollem Mund.
Die Stimme enthält viele Informationen, die nahezu unbegrenzt interpretiert werden können. Aber nur selten liefert sie eindeutige Hinweise.
Die Lüge hören
Sogenannte Häsitationen wie »äh« und »ähm« nutzen wir beinahe selbstverständlich im Alltag. Fehlen sie, ist das jedoch noch kein Beweis dafür, dass jemand lügt, sagt Angelika Braun. Manche Sprechende weisen kaum Häsitationen auf, sondern machen an deren Stelle Pausen.
Ob und wie viele Pausen oder Häsitationen jemand macht, mag zwar zeigen, wie viel Planung er in eine Äußerung steckt, aber das lässt keine Rückschlüsse auf deren Wahrheitsgehalt zu. Vielleicht ist der Planungsaufwand auch relativ gering, weil der Sprechende dieselbe Geschichte zum wiederholten Mal erzählt hat. Eine spontane Lüge ist daran also schwer zu erkennen.
Dennoch nutzen Menschen solche Häsitationen weitgehend unbewusst. Dadurch sind sie durchaus individuell und konstant. In der forensischen Analyse können sie deshalb ein Indiz für die Identität einer Sprecherin oder eines Sprechers liefern.
Inwiefern sich Ehrlichkeit dennoch in der Stimme abzeichnet, ist umstritten. Oliver Niebuhr verweist darauf, dass Lügen oft mit Stress verbunden ist, was sich im Gesagten niederschlagen kann: Die Stimmhöhe steige an oder enthalte Mikroperturbationen wie »Shimmer« und »Jitter« – minimale Schwankungen in Lautstärke und Frequenz. »Betrachten wir die Zuverlässigkeit, aus diesen Punkten auf eine Lüge zu schließen, betreten wir den Bereich der Fiktion«, räumt er aber ein.
In der Praxis sind eindeutige Schlüsse unmöglich, denn ähnliche Merkmale entstehen auch, wenn man lange redet, aufgeregt ist oder die Stimme altersbedingt zittert. Ein wandelnder Lügendetektor, der treffsicher zwischen Wahrheit und Schwindel unterscheidet, bleibt also Dichtung.
Der Teufel steckt im Detail
Über Hegels Geräuschanalyse von Autoreifen kann Angelika Braun nur schmunzeln. Vom forensischen Alltag sei das weit entfernt. »Um das auszuwerten, braucht man eigentlich nur das Geräusch des Blinkers.«
In einem anderen Szenario wird die Größe eines Raums anhand der Aufnahme eines Anrufs exakt bestimmt. Auch das ist nicht mit dem forensischen Alltag zu vereinbaren. Zwar stimmt die physikalische Theorie: Jedes Geräusch erzeugt einen Hall. Er entsteht durch Reflexion der Schallwellen an den Wänden, trifft etwas verzögert wieder auf das Mikrofon und gibt so etwas über die Raummaße preis. »Aber derart saubere Aufnahmen existieren in der Praxis nicht«, sagt Angelika Braun. »Allein schon Möbel, Gardinen und Nebengeräusche machen solche Messungen unmöglich. Das ist völlig realitätsfremd.«
Mit Schall Bomben legen
Neben vielen kleineren phonetischen Tricks finden sich im Roman deutlich exotischere Phänomene. Besonders spektakulär ist die Idee einer akustischen Bombe aus gerichteten Schallwellen und konstruktiver Interferenz – ein physikalischer Effekt, der hier allerdings drastisch überhöht wird. Für die beschriebene zerstörerische Wirkung eines »gebündelten, 1000-fach multiplizierten Schalls« wären Drücke im Bereich von mehreren Zehntausend bis Hunderttausend Pascal nötig. Doch selbst sehr laute Musik erreicht typischerweise nur wenige Pascal. Die Schallwellen müssten also äußerst präzise ausgerichtet sein, damit wirklich Wellenberge auf Wellenberge treffen, deren Amplituden sich linear addieren und verstärken.
Bei sehr hohen Drücken treten in der Regel Nichtlinearitäten auf. Das bedeutet, dass die Schwingungen ihre klassische Form verlieren; es entstehen Stoßwellen, und der Schall verhält sich erheblich komplexer. Außerdem werden die hohen Frequenzen, die es braucht, um die Schallwellen zu fokussieren, in der Atmosphäre stark gedämpft. Sie beugen und reflektieren an der turbulenten Luft und machen es praktisch unmöglich, die Phase vieler Quellen über große Entfernungen präzise zu steuern.
Auf kleinen Skalen hingegen funktioniert gerichteter Schall durchaus. Solche Anordnungen werden »Phased Arrays« genannt. Sie steuern Lautsprecher so an, dass sich die Wellen in eine gewünschte Richtung konstruktiv überlagern und in andere Richtungen destruktiv auslöschen. In geeigneten Räumen und bei optimaler Ausrichtung kann man auf diese Weise Schallfelder formen, die an verschiedenen Positionen unterschiedliche Signale liefern. Damit lassen sich mehrere Zonen schaffen, in denen dann Unterschiedliches zu hören ist.
Ein weiterer Trick im Buch ist »auditory masking«, also das akustische Überdecken. Als der Protagonist Hegel eine Sprachnotiz untersucht, entdeckt er eine geflüsterte Nachricht unter nachträglich eingefügtem Wind- und Autobahnlärm. Hegel versucht daraufhin, die verborgene Botschaft aus dem Geräuschgemisch herauszulösen.
Was einfach klingt, sei in der Realität oft nicht umzusetzen, erklärt Angelika Braun. Sprache und breitbandige Störgeräusche verhielten sich nicht wie eine Schwarzwälder Kirschtorte mit separaten Schichten, aus der man eine Schicht von Störgeräuschen entfernen könne, ohne benachbarte zu beschädigen. Auch ein anderes Bild aus der Kulinarik verwendet Braun: das eines Rühreis – es lässt sich nachträglich nicht mehr in einzelne Eier trennen. Wenn Störgeräusche dasselbe Frequenzspektrum wie die menschliche Sprache betreffen, lassen sich die Störungen im Nachhinein nicht komplett beseitigen. Um eine versteckte Botschaft zu isolieren, bräuchte das Störgeräusch eine deutlich andere Frequenz. Ein lautes Brummen etwa könnte Sprache überdecken – wäre aber so auffällig, dass Ermittlerinnen und Ermittler es sofort bemerken würden.
Überraschenderweise braucht es nicht immer Ton, um Töne zu analysieren. Als die fiktiven Ermittler eine stumme Videoaufnahme untersuchen, finden sie anhand vibrierender Glühbirnen heraus, was in einem Raum gesprochen wurde. Die Glühbirnen dienen dabei als sogenannte Helmholtz-Resonatoren, die jeweils besonders stark auf eine bestimmte Frequenz ansprechen. Je nachdem, welche Birne schwingt, schließt Hegel auf die Laute und rekonstruiert die gesprochenen Worte. An dieser Stelle bewegen sich die Autoren etwas näher an der Grenze zwischen realer Forschung und Science-Fiction.
Tatsächlich gelang es Forschenden des Massachusetts Institute of Technology bereits im Jahr 2014, Schall aus Videoaufnahmen vibrierender Objekte zu rekonstruieren. Hochgeschwindigkeitskameras registrierten winzige Bewegungen im Nanobereich und machten so die Schallwellen sichtbar. Dabei kamen allerdings keine Resonatoren zum Einsatz, sondern Objekte, die als Membran dienten, zum Beispiel eine Chipstüte oder Alufolie. Sie schwingen nicht bei einzelnen Frequenzen, sondern reagieren auf viele. Das erschwert es jedoch erheblich, verschiedene gleichzeitig eintreffende Signale eindeutig voneinander zu trennen: Die Experimente zeigen, dass Sprache in Hintergrundgeräuschen fast vollständig untergeht.
Vermutlich entschieden sich die Autoren der »Auris«-Reihe deshalb für die Glühbirnen, die das Frequenzspektrum »aufspalten«. Ein solcher Array würde aber nur die Frequenzen erfassen, die exakt in den Resonanzbereichen der Birnen liegen. Alles, was dazwischenliegt, ginge verloren.
Sprache besteht jedoch aus zahlreichen Formanten, die auch zwischen den Resonanzpunkten liegen. Daher wäre eine verständliche Rekonstruktion wahrscheinlich kaum möglich. Hinzu kommt: Handelsübliche Glühbirnen könnten kaum im relevanten Frequenzbereich schwingen. Und herkömmliche Überwachungskameras verfügen weder über die Bildrate noch über die Lichtempfindlichkeit, die für solche Aufnahmen nötig wären. Schon geringes Rauschen oder Bewegung in der Szene würden das Signal vollständig überlagern.
Viele der geschilderten phonetischen Effekte basieren auf realen physikalischen Prinzipien, werden aber für die Dramaturgie deutlich zugespitzt oder vereinfacht. Sie sind wissenschaftlich inspiriert, technisch denkbar – und zugleich so überhöht, dass sie mit der tatsächlichen Forschungspraxis nur noch bedingt übereinstimmen.
Auch die beschriebenen Eigenschaften der Stimme sind in ihren Grundzügen realistisch. Es lässt sich allerdings unendlich viel aus einer Stimme heraushören, aber kaum etwas eindeutig zuordnen.
Ursache und Wirkung hängen auf zahlreiche Weisen miteinander zusammen. Das erlaubt in der Forensik lediglich eine Beschreibung, keine abschließende Interpretation. Forensische Phonetik allein löst keine Fälle. Sie ist stets ein Hilfsmittel im Zusammenspiel kriminalistischer Methoden.
Hegel ist keine realistische Figur, sondern eine Symbolgestalt für die Verbindung aus phonetischen Taktiken und ermittlungstechnischem Instinkt. Er ist ein literarischer Held in einem Thriller, der trotz aller Übertreibungen zeigt: Die Wissenschaft der Stimme birgt eine ungeahnte Faszination und erstaunliche Möglichkeiten.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.