Trends in der Musiktechnik I: Digitale Klangerzeugung

Spezielle Hard- und Software macht aus Computern Musikinstrumente, die Töne und Geräusche gleichermaßen erzeugen können. Verschieden Verfahren modellieren den Klang oder das ihn hervorbringende Instrument. Das Hörerlebnis kommt dem bei akustomechanischen Vorbildern immer näher, doch auch noch bislang ungehörte Klänge lassen sich formen.

Dr. Thoralf Abgarjan und Dr. Klaus-Dieter Linsmeier

Perkussive, schnelle Rhythmusse- quenzen, seltsam schwebende Klangflächen und vieles mehr werden zunehmend digital – also mit Computern – berechnet und erzeugt. Das Anwendungsspektrum dieser universalen Technik reicht vom Keyboard des Musikschülers über die Produktionsstätten der Designer von Special Effects bis hin zu den ausgefallenen Erlebnisangeboten von Performancekünstlern. Multimedia-Anwendungen und Computerspiele wären ebenso wie die recycelten Produkte heutiger Musikindustrie ohne digitale Klangerzeuger nicht mehr denkbar.

Die Möglichkeiten aktuell verfügbarer Hard- und Software haben diese Entwicklung stark beeinflußt. In den fünfziger Jahren waren nur wenige Hochschulen mit Großrechnern ausgestattet, die zudem allen ihren Instituten zur Verfügung standen – Rechenzeit war somit begrenzt. Erst in den sechziger Jahren konnten sich eigens gegründete Musikforschungszentren nur für musikalische Zwecke eingesetzte Maschinen leisten. Die massenhafte Verbreitung synthetischer Musik begann freilich erst in den achtziger Jahren mit dem Aufkommen verschiedener Desktop-Computer, des MIDI-Standards für die Steuerung von Synthesizern (siehe Kasten Seite 84) und der Frequenzmodulation als erster, mit preiswerten Chips realisierbarer Form digitaler Klangerzeugung.

Die direkte Synthese

Wird eine Signalwelle in kurzen Zeitabständen abgetastet und ihr momentaner numerischer Wert gespeichert, kann man diese Zahlenfolge wieder in Spannungswerte umsetzen und damit einen Lautsprecher ansteuern. Auf diese Weise läßt sich ein analoges, also kontinuierliches Signal in ein digitales, also aus diskreten Werten bestehendes umwandeln und vice versa.

Nach dem von dem amerikanischen Ingenieur und Mathematiker Claude Elwood Shannon, damals Mitarbeiter der Bell-Telephone-Laboratorien in Murray Hills (New Jersey), 1948 gefundenen Sampling-Theorem (nach englisch sample, Probe) ist zur Rekonstruktion der ursprünglichen Welle allerdings zur Abtastung beziehungsweise Wiedergabe eine doppelt so hohe Frequenz wie die höchste im analogen Signal vorkommende erforderlich (vergleiche "Digitale Tonwiedergabe" von John Montforte, Spektrum der Wissenschaft, Februar 1985, Seite 94). Für Compact Disks als Tonträger verwendet man deshalb zum Sampeln 44,1 Kilohertz entsprechend einer maximalen Schwingung von 22,05 Kilohertz – die Grenzfrequenz des menschlichen Gehörs liegt bei maximal 20 Kilohertz.

Der Ingenieur Max V. Matthews untersuchte Mitte der fünfziger Jahre bei den Bell-Laboratorien, ob sich die neue Digitaltechnik zur Spracherzeugung nutzen ließe, weil binäre Signale weit weniger störanfällig als analoge über Telephonleitungen zu transferieren sind. Dabei entstand 1957 das erste Programm der Welt zur Erzeugung synthetischer Klänge, Music I. Es berechnete diskrete Werte einer Schallwelle, genauer gesagt die erforderlichen Spannungswerte zur Ansteuerung eines Lautsprechers; man spricht deshalb von direkter Klangsynthese (vergleiche "Der Computer als Musikinstrument" von Max V. Matthews und John R. Pierce, Spektrum der Wissenschaft, April 1987, Seite 122). Allerdings erlaubte die Rechnertechnik damals nur, 5000 Zahlen pro Sekunde in Spannungswerte umzuwandeln – 10000 bis 50000 wären nach dem Sampling-Theorem erforderlich gewesen. Deshalb teilte Matthews den Prozeß in zwei Phasen: In der ersten berechnete ein Computer die Momentanwerte des Signals und legte sie auf Magnetband ab; in der zweiten erfolgten die Digital-Analog-Wandlung und die akustische Umsetzung (Bild 1 oben).

Um das Komponieren zu vereinfachen, simulierte das Programm ab der dritten Version Oszillatoren, die sich zu virtuellen Instrumenten verknüpfen ließen. Sie waren programmierbar; die resultierende Schallwelle wurde berechnet, wenn das Programm die Kompositon abspielte. Ende der sechziger Jahre entstand schließlich Music V, das nicht mehr an Rechner bestimmter Hersteller gebunden war und fortan in den Zentren für Computermusik weltweit genutzt wurde. Indem Wellenformen der Oszillatoreinheiten bereits abrufbereit als diskrete Werte in Tabellen gespeichert waren, verkürzte man die Rechenzeit.

Zur massenhaften Verbreitung war das Verfahren aber nicht geeignet, denn es verging zuviel Zeit zwischen Datengenerierung und Hören. In den sechziger Jahren mußten beispielsweise Musikwissenschaftler der Universität Princeton (New Jersey) einmal pro Woche die Magnetbänder ihrer Kompositionsversuche zu den 150 Kilometer entfernten Bell-Laboratorien zur Digital-Analog-Wandlung fahren. Noch unerfahren in der Technik, erhielten sie häufig als Ergebnis nur Stille oder nicht beabsichtigte Geräusche. Von einer Darbietung in Echtzeit, wie ein herkömmliches akustomechanisches Instrument sie ermöglicht, war man weit entfernt.

Matthews und der Komponist F. Richard Moore, mittlerweile am Institut für Musik der Universität von Kalifornien in San Diego, entwickelten deshalb eine Variante von Music V, die sie nach generated real-time operations on voltage-controlled equipment GROOVE nannten. Wie der Name sagt, wurden nicht Klänge berechnet, sondern Steuersignale, die Digital-Analog-Wandler in Spannungswerte umsetzten. Diese wiederum kontrollierten Komponenten analoger elektronischer Instrumente, wie sie auch etwa im damals populären Moog-Synthesizer verwendet wurden. GROOVE ließ sich mit einer Klaviatur und verschiedenen zusätzlichen Reglern spielen. Die erforderliche Datenübertragungsrate war so auf 100 bis 200 Spannungswerte pro Sekunde reduziert. Zudem füllte der verwendete Rechner, wie Moore später scherzhaft meinte, nur noch ein Appartment statt eines ganzen Hauses aus.

Die additive Synthese

Klänge entstehen aus der Überlagerung von Grundschwingung und Partialtönen höherer Frequenz. Nach dem Theorem des französischen Mathematikers und Physikers Joseph Fourier (1768 bis 1830) läßt sich jede harmonische Schwingung solchermaßen in Sinusschwingungen zerlegen und auch daraus wieder aufbauen. Partialtöne geben einem Instrument seine Klangfarbe; bei einer harmonischen Schwingung wie der eines Geigentons sind diese Frequenzen geradzahlige Vielfache der Grundschwingung, hingegen bei nichtharmonischen Schwingungen wie dem Klang einer Glocke überwiegend ungeradzahlige.

Somit könnte ein Klangspektrum additiv aus Sinusschwingungen aufgebaut werden; ein entsprechendes Programm müßte dann die Wellenformen unabhängiger Oszillatoren berechnen. Der französische Komponist und Physiker Jean-Claude Risset erkannte jedoch 1965 während eines Aufenthaltes in den Bell-Laboratorien, daß sich Spektren natürlicher Instrumente, während sie klingen, verändern (Bild 1 unten). Sein Studienobjekt war die Trompete. Er fand auch, daß die Zahl hochfrequenter Partialtöne mit der Lautstärke eines Tones zunimmt. Inzwischen kennt man solche Varianzen auch von anderen Instrumenten. So hängt der Anteil hoher Obertöne beim Klavier auch von der Intensität des Anschlags ab; außerdem verringert sich dieser Anteil beim Abklingen des Tons stärker als jener der tiefen Frequenzen. Folglich werden zur Darstellung eines Spektrums nicht nur die verschiedenen Oberschwingungen benötigt, sondern auch jeweils der als Hüllkurve bezeichnete zeitliche Verlauf des Pegels (Bild 2).

Selbst heutige Computer vermögen die additive Synthese eines komplexen Klangspektrums wie dem eines Klaviers mit zahlreichen, sich wandelnden Partialtönen nicht in Echtzeit zu leisten. Entsprechende kommerzielle Mikrochips bieten etwa 32 Oszillatoren, ein Klavierton setzt sich aber aus Hunderten von Sinusschwingungen zusammen. Zudem trägt insbesondere bei einigen Blas- instrumenten wie der japanischen Shakuhachi-Flöte farbiges Rauschen zum charakteristischen Klang bei, und ein Rauschspektrum besteht sogar aus unendlich vielen Partialschwingungen (hat es ein Maximum bei einer Frequenz, bezeichnet man es als farbig, bei völliger Gleichverteilung als weiß).

Forschungszentren entwickeln deshalb schnellere Algorithmen. So gelang Xavier Rodet und Philippe Depalle vom Pariser Institut de Recherche et Coordination Acoustique/Musique (IRCAM) mittels inverser Fourier-Transformation, den Rechenaufwand der additiven Synthese auf ein Zehntel bis ein Dreißigstel zu reduzieren. In einfacher Form nutzt man sie aber noch immer vor allem zur Imitation von Orgelklängen. Bei diesen Instrumenten wird die Grundschwingung, eine stehende Welle in einem Rohr, vorwiegend durch zusätzliche kürzere Rohre klanglich gefärbt. Deren Partialtöne bleiben während der Luftzufuhr weitgehend konstant, das abstrakte Modell des Klangs fällt also vergleichsweise einfach aus (vergleiche "Orgelpfeifen" von Neville H. Fletcher und Suszanne Thwaites, Spektrum der Wissenschaft, März 1983, Seite 96).

Frequenzmodulation

John M. Chowning übertrug Ende der sechziger Jahre das in der Rundfunktechnik etablierte Verfahren der Frequenzmodulation (FM) auf hörbare Schwingungen. Durch einen Zufall, wie er selbst stets erzählte, begründete Chowning dabei den kommerziellen Erfolg digitaler Synthesizer.

Der Doktorand der Universität Stanford (Kalifornien) untersuchte die Effekte extremen Vibratos mit Music V. Beim Vibrato wird die Frequenz eines Tons, also seine Höhe, durch eine zweite Schwingung beeinflußt; man spricht von Träger und Modulator (bei Veränderung der Amplitude des ersten entsteht musikalisch ein Tremolo). Dabei bestimmt die momentane Amplitude des modulierenden Signals, wie stark sich die Tonhöhe des Trägers verändert (Bild 3).

In der Rundfunktechnik verwendet man dieses Verfahren, um einer hochfrequenten elektromagnetischen Trägerwelle eine Nachricht aufzuprägen und so den Eigenschaften des jeweiligen Übertragungsmediums anzupassen; Amplitudenmodulation ist im Kurz-, Mittel- und Langwellenbereich gebräuchlich, Frequenzmodulation für Ultrakurzwellen. Normalerweise ist die Modulationsfrequenz – bei technischen Anwendungen die der Nachricht – um drei bis vier Zehnerpotenzen kleiner. Erhöht man sie aber, bis sie sich der des Trägers nähert, formiert sich das gesamte Klangspektrum neu (Bild 4).

Chowning hatte dies nach eigener Aussage versehentlich getan. Das Ergebnis war ein neuer, eigenständiger Ton. Aus Summen- und Differenzfrequenzen der Signale entstanden nämlich zusätzliche Partialtöne ober- und unterhalb der Trägerfrequenz, sogenannte Seitenbänder. Ihre Tonhöhen werden im wesentlichen durch das Frequenzverhältnis der beiden Ausgangssignale bestimmt; ist es ganzzahlig, sind die Partialtöne harmonisch, ist es ungeradzahlig, ergeben sich unharmonische Spektren wie bei Glocken oder Gongs. Zahl und Amplituden der Seitenbänder beziehungsweise Partialtöne sind abhängig von der Amplitude des Modulators, der sogenannten Modulationstiefe. Erzeugt man beispielsweise unharmonische Spektren mit einer Modulationsfrequenz, die höher ist als die des Trägers, ergibt sich ein schlagzeugähnliches Klangbild mit breit gestreuten Partialtönen.

Zudem lassen sich den Schwingungen von Träger und Modulator zeitlich variable Hüllkurven zuweisen (Bild 2 unten): Wie bei analogen Synthesizern unterscheidet man dabei die Phasen Einschwingen auf einen maximalen Wert (attack), Abklingen auf einen tieferen (decay), Halten dieser Amplitude (sustain) und schließlich, nach Loslassen der Taste, Abklingen auf null (release). Des weiteren kann man mehrere FM-Wellenformen addieren.

Derartige Träger-Modulator-Systeme lassen sich aus wenigen und vergleichsweise einfachen elektronischen Operatoren aufbauen, FM war somit für eine kommerzielle Anwendung gut geeignet. Die japanische Firma Yamaha erwarb die Lizenzrechte von der Universität Stanford und brachte 1983 den Synthesizer DX-7 für etwa 2000 Dollar auf den Markt; er wurde innerhalb weniger Jahre rund eine halbe Million mal verkauft.

Im Unterschied zu analogen Synthesizern, bei denen man Einstellungen von durch Probieren gefundenen Klängen notieren mußte (sie wurden oft mittels Klebebändern an den Reglern fixiert), ermöglichte das digitale Produkt perfekte Reproduzierbarkeit der programmierten Sounds. Der DX-7 war zudem als einer der ersten Synthesizer mit einer MIDI (musical instrument digital interface) -Schnittstelle ausgestattet und somit per Computer zu steuern (siehe Kasten Seite 84). Mittlerweile sind FM-Chips Bestandteil vieler Soundkarten in Heimcomputern.

Die Frequenzmodulation ist eine sehr flexibel einsetzbare Technik. Kommerziell erfolgreiche Tongeneratoren haben gegenwärtig vier bis acht Operatoren, die sowohl die Träger- wie die Modulatorschwingung erzeugen können und vielfältig kombinierbar sind; die Hüllkurve wird von einem eigenen Generator erzeugt. Ein in den DX-7 eingebauter Analogeingang zum Anschluß eines Blaswandlers, der wie der Name sagt durch Blasen erzeugte Luftdruckschwankungen in Steuersignale umsetzt, eröffnet zusätzliche Möglichkeiten, Töne zu beeinflussen und lebendig zu gestalten.

Um den Klang einer Orgel nachzubilden, benutzt man die Frequenzmodulation zur additiven Synthese. Dazu werden zwei oder mehr Schwingungen durch Parallelschalten von mindestens zwei Operatoren addiert, deren Frequenzen in einem ganzzahligen Verhältnis stehen. Des weiteren ist das Verfahren nicht auf Sinusschwingungen für Träger- und Modulatorsignal festgelegt. Bei der advanced frequency modulation (AFM) werden davon abweichende Funktionen benutzt, die sogar von Samples – also digitalisierten Wellenfunktionen – abstammen können.

Die allgemeine mathematische Beschreibung der resultierenden FM-Zeitfunktion hat die Form einer Bessel-Funktion, benannt nach dem Königsberger Astronomen und Mathematiker Friedrich Wilhelm Bessel (1784 bis 1846). Während eine additive Synthese intuitiv zu gestalten ist, entzieht sich die mathematisch komplexere Frequenzmodulation solch leichtem Zugang. Mit zusätzlichem Rechenaufwand lassen sich aber Hilfsmittel wie Umrechnungen von Bessel- in Fourier-Koeffizienten bereitstellen.

Freilich kann man damit mechanoakustische Vorbilder nicht realitätsnah nachahmen; aber das würde auch dem abstrakten Modell widersprechen. So ist verständlich, daß die Imitation etwa eines Klaviers oder einer Geige mit den FM-Chips einfacher Soundkarten nicht überzeugt – sie ist nicht die Bestimmung des Verfahrens. Mittels Frequenzmodulation synthetisierte Klänge haben ihren eigenen Charakter. Sie können sowohl sehr weich wie sehr brillant sein und eignen sich ausgezeichnet für druckvolle Bass- und Synth-Bläser- oder Orgelklänge. Einige E-Piano-Sounds des DX-7 wurden in der Popmusik sogar zu Klassikern und finden sich auch in den im folgenden beschriebenen Sample-Playern.

Das Sampling

Die Weiterentwicklung der Digital-Analog- beziehungsweise der Analog-Digital-Wandlung, insbesondere aber immer größere und leistungsfähigere Datenspeicher ermöglichten, reale Klänge als Folgen von Abtastwerten zu verwenden. Dazu wandelt man sie zunächst mit Mikrophon, Piezokristall oder elektromagnetischem Tonabnehmer in ein analoges elektrisches Signal um, das mit der Sampling-Frequenz von meist 44,1 Kilohertz abgetastet, so in ein binäres Signal umgewandelt und in einer Tabelle (Wavetable genannt) abgelegt wird.

Die Wiedergabe erfolgt durch Auslesen der digitalen Werte mit derselben Frequenz aus dem Speicher und Rekonstruktion des analogen Signals mit einem Digital-Analog-Wandler. Das Ergebnis, nochmals verstärkt, steuert meist eine Lautsprechermembran, und es entstehen Luftdruckschwingungen, also longitudinale Schallwellen.

Beim Digitalisieren wird allerdings nicht nur der zeitliche Verlauf gerastert, sondern auch der Informationsgehalt: Beträgt die Wortbreite des digitalen Signals n Bit, läßt sich damit die Schwingungsamplitude des analogen Signals auf ganze Zahlen von 0 bis 2n abbilden. Mit den für High Fidelity-Anwendungen üblichen 16 Bit ist somit ein Dynamik-bereich zwischen kleinster und größter Amplitude von 0 bis 65535 darstellbar, das entspricht auf einer logarithmischen Skala 96 Dezibel. (Das menschliche Ohr vermag aber ein Verhältnis von 1 zu 1000000 aufzulösen, also 110 Dezibel; aktuelle Bestrebungen, auf 24 Bit Wortbreite überzugehen, sind deshalb wohlbegründet.)

Der Speicherbedarf für Audio-Samples ist recht hoch. Bei der genannten Abtastrate und Wortbreite fallen etwa 5,3 Megabyte (Millionen Byte) an Daten je Aufnahmekanal pro Minute an, das entspricht einer Datenübertragungsrate von fast 90 Kilobyte pro Sekunde – etwa dreimal so viel, wie MIDI maximal ermöglicht. Deshalb setzt man nun für professionelle Zwecke Systeme mit SCSI-Bus (small computer system interface) ein (als Bus wird eine Gruppe parallel geführter Leitungen bezeichnet, über die ein Computer Daten, Adressen und Befehle sendet oder erhält). Die derzeit fortschrittlichsten Varianten Wide und Ultra-Wide SCSI bieten eine Wortbreite von 16 beziehungsweise 32 Bit und maximal 40 Megabyte pro Sekunde. Im Unterschied zur MIDI-Leitung ist diese Verbindung bidirektional, die kommunizierenden Einheiten können also gleichzeitig senden und empfangen.

Freilich liegt die Lösung des Problems großer Datenmengen nicht allein in rein technischen Verbesserungen, sondern auch im ökonomischen Umgang mit dem Sampling-Material selbst. Eine möglichst naturgetreue Tonerzeugung läßt durchaus Raum für Einsparungen. Hört man beispielsweise einen einzelnen – originalen – Klavierton, läßt sich ohne besondere musikalische Vorkenntnisse feststellen:

- Sofort nach dem Anschlagen ist er als Klavierton zu erkennen.

- Der Ton erklingt je nach Höhe etwa zehn Sekunden bis zu Minuten, und zwar je tiefer, desto länger. Nach der Einschwingphase klingt er ab, ohne seinen Charakter grundlegend zu ändern, wirkt jedoch zunehmend matter.

- Das Klangbild ändert sich je nach Anschlagstärke; dasjenige benachbarter Töne ist sehr ähnlich.

- Können andere Saiten durch Resonanz mitschwingen, indem beispielsweise das Haltepedal gedrückt wird, ändert sich der Klang.

Die Wiedergabe des Einschwingvorgangs genügt demnach bereits, den Klang zu identifizieren; je tiefer der Ton ist, desto länger dauert das erforderliche Sample. Es ist aber keineswegs erforderlich, auch das Abklingen komplett anzubieten. In der Praxis wird statt dessen ein vergleichsweise kurzer Zeitabschnitt so lange wiederholt, wie der Ton angefordert wird (bei einem MIDI-Gerät also, bis ein Note-Off-Befehl eintrifft). Eine Amplitudenhüllkurve gibt dabei das Abklingen vor. Mit einer Filterhüllkurve werden die Höhen zusätzlich bedämpft, der Klang wird so matter gemacht. Ein einminütiges monophones Sample, das 5 Megabyte belegen würde, reduziert sich beispielsweise auf 1200 Millisekunden beziehungsweise 0,1 Megabyte für Attack samt erster Ausschwingphase und einen 200 Millisekunden dauernden, mehrfach wiederholten Klangausschnitt, der mit nur 16 Kilobyte zu Buche schlägt.

Um die Dynamik des Anschlags technisch umzusetzen, gibt es mehrere Möglichkeiten: Entweder sampelt man denselben Ton bei mehreren Anschlagstärken und ruft diese Datensätze dann je nach Anschlag der Keyboardtastatur auf, oder ein Sample durchläuft beim Auslesen einen anschlagsabhängigen Filter. Kombinationen beider Methoden sind ebenfalls in Gebrauch. Die Entscheidung darüber, welches Verfahren letztlich angewendet wird, fällt anhand der technischen Möglichkeiten des jeweiligen Tonerzeugers, aber auch nach musikalischem Bedarf: Viele lautstärke-abhängige Samples ergeben einen sehr inhomogenen, Filter allein einen eher statisch wirkenden Klang.

Die Ähnlichkeit in den Klängen benachbarter Noten ermöglicht eine weitere Reduktion des Speicherbedarfs, denn ein Sample läßt sich mehrfach verwenden. Wird es mit der doppelten Sampling-Frequenz ausgelesen, erklingt der betreffende Ton eine Oktave höher, mit der halben eine Oktave tiefer. Dieser Effekt ist vergleichbar dem eines Tonbandes, das mit höherer oder niedrigerer Geschwindigkeit abgespielt wird. Wie aber dabei nicht einfach aus einem Baß ein Tenor wird, sondern aus einem Mann eine Mickey-Mouse, ist dieses Verfahren nur begrenzt anwendbar, weil sich dabei ausnahmslos alle Frequenzanteile gleichmäßig mit verschieben. Doch das Charakteristikum eines Klanges – ob von einem Klavier gespielt oder einem Menschen gesprochen – sind konstante Spektralanteile, die im gesamten Tonumfang enthalten sind. Um diese Formanten weitgehend konstant zu halten, darf ein Sample nur innerhalb eines eng begrenzten Tonbereichs mit variabler Sampling-Frequenz abgespielt werden. Korrekturverfahren, welche die Verschiebung ausgleichen, sind sehr rechenintensiv und deshalb derzeit nur bei der Klangnachbearbeitung, nicht bei Echtzeit-Anwendungen einzusetzen.

Die auf dem Sampling basierenden Klangerzeuger haben vor zwölf Jahren Einzug auf den Markt digitaler Instrumente gehalten, den sie mittlerweile dominieren. Das Angebot umfaßt Klänge verschiedenster Instrumente – auch analoger Synthesizer. Zudem kann der Musiker bei hochwertigen Geräten die Parameter der Hüllkurven und Filter einstellen und Samples untereinander kombinieren, so daß sich neuartige Sounds ergeben. Immer leistungsfähigere Hard- und Software begünstigt auch das Aufnehmen und Ablegen längerer Samples auf die Festplatte; man spricht vom Harddisk-Recording. Sequencer genannte Steuerprogramme für Klangerzeuger ermöglichen häufig, MIDI- und Audio-Daten innerhalb eines einzigen Systems zu verwalten. Überdies gibt es vielfältige Möglichkeiten, die digitalen Daten zu bearbeiten. In den Tonstudios der Musikindustrie dienen solche Verfahren mittlerweile dazu, die Qualität der Aufnahmen zu verbessern, etwa durch selektives Filtern von Zischlauten eines Sängers, oder um Passagen aus schon vorhandenen Quellen neu zu mischen. Komponisten können zu vergleichsweise geringen Kosten Klangmaterial in einer Weise verfremden und umdeuten, wie es noch vor einem Jahrzehnt kaum in den Forschungszentren der elektronischen Musik möglich war.

Doch hat auch das Sampling, trotz dieser vielfältigen Möglichkeiten, bei der Imitation natürlicher Instrumente seine Grenzen. Wie sich das Klangbild, das beim Anschlag einer Klaviertaste entsteht, durch resonantes Mitschwingen anderer Saiten und des Klavierkörpers verändert, vermag man damit nur begrenzt nachzuahmen (eine solche gekoppelte Schwingung moduliert beispielsweise das Abklingen eines Tones). Sobald mindestens zwei Töne gleichzeitig abgerufen werden, liefert die Technik nur die Summe der Einzeltöne. Bei einem Klavier regen sich die Saiten aber entsprechend ihrer Partialtöne zusätzlich gegenseitig an, insbesondere dann, wenn sie ungedämpft sind, also frei schwingen können. Des weiteren hat der Klavierkorpus Eigenresonanzen, die bestimmte Frequenzen verstärken.

Werden die einzelnen auf dem Klavier angeschlagenen Töne mit gedrücktem Pedal – also mit maximalem Resonanzvermögen des Instruments – gesampelt, enthält das Spektrum die Summe aus Klang- und Resonanzanteil (Bild 5). Will man nun ein Klavier realistisch simulieren, müssen beide getrennt werden, um sie beim Spielen des Klangerzeugers gegebenenfalls wieder zu mischen. Das Klangspektrum wird dazu in einen deterministischen und in einen stochastischen Teil zerlegt. Der erste entspricht dem bei normaler Dämpfung gesampelten Signal (darin enthaltene Resonanzen sind in der Praxis vernachlässigbar). Eliminiert man ihn aus dem mit Haltepedal aufgenommenen Sample, erhält man den stochastischen Anteil.

Simulation von Instrumenten

Das letzte Beispiel steht bereits an der Schwelle zu dem modernsten Prinzip der Tonerzeugung, dem physical modeling (PM). Statt den Klang von Instrumenten aufzuzeichnen, sucht man sie selbst so gut wie möglich mathematisch zu erfassen und berechnet die Töne, die diese Modelle erzeugen. (Zunächst standen akustomechanische Instrumente im Mittelpunkt des Interesses, und der Begriff wurde gegen die Modellierung von Klängen mit den bereits beschriebenen Verfahren abgegrenzt; mittlerweile simuliert man aber auch die Schaltkreise analoger und digitaler Klangerzeuger und spricht auch hier von PM beziehungsweise virtueller Akustik.) Die tonformenden Parameter sollten sich mit Klaviaturen oder anderen Nachbildungen der originalen Spielmittel in Echtzeit einstellen lassen, die virtuellen Instrumente mithin spielbar sein. Weil die Modelle auch nichtlineare Effekte wie Resonanzen von Saiten oder das Überblasen einer Flöte enthalten sollen, müßte dann – so das Ziel – ein täuschend echter Klang entstehen. Zudem ließen sich Töne erzeugen, die mit akustomechanischen Instrumenten nicht machbar wären. Grundlegende Arbeiten stammen teilweise schon aus den sechziger, entscheidende Impulse aus den achtziger Jahren, doch erst 1994 kamen erste Produkte – die Virtual Acoustic-Synthesizer von Yamaha – auf den Markt.

Meist gliedert man das akustomechanische Vorbild nach Elementen mit linearem Verhalten, wie etwa dem Resonanzkörper, und nichtlinearem, wie etwa dessen Kopplung mit einer Saite oder Luftsäule. Zur Modellierung der Systeme verwendete man zunächst Massen, Federn und Dämpfer oder Oszillatoren entsprechend den Frequenzkomponenten des schwingenden Körpers. Julius O. Smith III vom Center for Computer Research in Music and Acoustics der Universität Stanford nutzte dann aus der Elektronik entliehene Komponenten wie Wellenleiter, Filter und nichtlineare Elemente; auch Kombinationen der Methoden sind gebräuchlich. Es ergeben sich Differentialgleichungen, die meist numerisch zu lösen sind. Die mechanische Modellierung erfordert eine Diskretisierung des räumlichen Objekts, also ein Zerlegen des realen Instruments in einfache geometrische Strukturen wie Quader oder Tetraeder, die nicht immer offensichtlich ist. Zudem erfordert die Berechnung eines Netzes schwingender Punktmassen eine hohe Rechenleistung. In kommerziellen Anwendungen modelliert man damit vor allem lokale nichtlineare Effekte wie das Schwingen von Holzzungen in Blasinstrumenten oder das Schlagen eines Klavierhammers auf eine Saite.

Das Modellieren mit Wellenleitern ist weit verbreitet und wird insbesondere für Blas- und Saiteninstrumente verwendet. Man unterscheidet dabei Modelle mit einem und mit zwei Schwingungssystemen. Das erste beschreibt stehende Longitudinalwellen in einem Rohr, eignet sich also beispielsweise für Klarinette, Saxophon oder Orgelpfeife. Eine gestrichene Saite hingegen wird durch die zwei Systeme Steg-Bogen und Bogen-Griffbrett modelliert.

Ein Wellenleitermodell besteht typischerweise aus Verzögerungseinheiten (englisch delay), Digitalfiltern und einem nichtlinearen Erreger. Erstere entsprechen dem Ausbreitungsmedium, das die Welle verzögert und somit ihre Laufzeit vorgibt. Zur Modellierung benötigt man folgende Annahmen:

- Ein Erreger wie das Mundstück einer Klarinette oder ein Bogen erzeugt in dem System, also in Rohr oder Saite, eine stehende Welle;

- deren Grundfrequenz wird von der Rohr- oder Saitenlänge bestimmt;

- den Klangcharakter, also das sich ergebende Partialtonspektrum, formen der Erreger und die mechanischen Reflexionseigenschaften an den Rohrenden, meist durch nichtlineare Filter simuliert;

- instrumenttypisch werden manche Frequenzanteile absorbiert, andere durch Resonanz verstärkt;

- der Schalltrichter eines Blas- beziehungsweise der Resonanzkörper eines Saiteninstruments filtert aus den angeregten Schwingungen Frequenzen aus.

Des weiteren bestimmen Kenntnisse aus der Akustik die Modelle. So gilt etwa bei Blasinstrumenten, daß eine halboffene luftdurchströmte Röhre nur ungerade harmonische Teiltöne liefert und der Durchmesser im wesentlichen die Grenzfrequenz bestimmt. Auch allgemeine Eigenschaften von Wellen gehen ein: An einer Grenzfläche, die Medien mit unterschiedlichen Ausbreitungsgeschwindigkeiten trennt, wird ein Teil einer auftreffenden Welle reflektiert, ein anderer läuft von der ursprünglichen Richtung weggebrochen weiter; trifft die Welle auf ein Hindernis, das klein gegenüber ihrer Wellenlänge ist, wird sie daran gebeugt.

Betrachten wir ein Rohrblattinstrument wie etwa eine Klarinette oder ein Fagott (Bild 6). Der Blasdruck erzeugt den Ton, im Modell als Erregung durch explosionsartige Luftpulse abgebildet; der Zusammenhang zwischen Luftdruck und -strom ist nichtlinear. Es entsteht eine vorwärtsgerichtete Schallwelle, die vom Mundstück beeinflußt wird; im Modell erfaßt dies ein Parameter. Am Rohrende geht die Welle aus den genannten Gründen teilweise in den Schalltrichter über und wird nach außen übertragen, teilweise reflektiert. Der zurücklaufende Teil modifiziert ebenfalls die Welle am Rohranfang, was sich beispielsweise durch einen weiteren Parameter berücksichtigen läßt. Die Laufzeit durch das Rohrinnere simulieren, wie erwähnt, Verzögerungseinheiten; diese bestimmen schließlich wesentlich die Tonhöhe.

Statt die genannten Nichtlinearitäten zu berechnen, werden in Echtzeit-Systemen die Werte einer Tabelle entnommen. Besonders kompliziert sind die Wechselwirkungen beim Übergang von Erreger und Rohr: Durch die rückwärtslaufende Schallwelle wird der Luftdruck im Mundstück geringer und nimmt sogar negative Werte an. Das Rohrblatt wird dann angesogen und der luftdurchströmte Spalt verkleinert, bis er sich gänzlich schließt. Dies läßt wiederum den Druck im Erreger ansteigen, bis ein neuer Impuls entsteht.

Das Wellenleiter-Modell einer gestrichenen Saite unterscheidet sich davon vor allem dadurch, daß der Bogen sie in ein rechtes und ein linkes Schwingungssystem teilt (Bild 7). Seine Kraft und Geschwindigkeit sowie das Längenverhältnis der schwingenden Saitenanteile charakterisieren das System. Wieder beschreiben nichtlineare Gleichungen die Erregung, und eine Parametertabelle stellt die Funktionswerte in Echtzeit bereit. Ein Filter beschreibt die Verluste bei der Reflexion der Welle am Steg, also beim Übergang auf den Resonanzkörper. Dessen Eigenschaften werden ebenfalls durch Digitalfilter modelliert. Verzögerungsobjekte entsprechen den sich innerhalb der schwingenden Saitenteile ausbreitenden Wellen. Klangbestimmende Randbedingungen wie beispielsweise der Anstellwinkel des Bogens werden entweder in der Parametertabelle berücksichtigt oder mittels Filterfunktionen in das Modell eingebaut.

Ein weiterer Klassiker der virtuellen Tonerzeugungsverfahren ist das 1983 von Kevin Karplus und Alex Strong während ihrer Studienzeit an der Universität Stanford entwickelte Modell für gezupfte Gitarre (Bild 8). Es benutzt einen perkussiven Laut wie einen kurzen Impuls oder sogar weißes Rauschen zur Anregung einer Verzögerungsleitung. Die ausgelöste Schwingung wird zum Eingang rückgekoppelt und mit dem erregenden Sound gemischt. Regelt man den Anteil des rückgekoppelten Signals entsprechend, entsteht ein exponentiell abklingender Ton. Seine Höhe wird nur durch die Verzögerungslänge bestimmt. Um das Verhalten der abklingenden Schwingung der angeregten Saite noch realistischer zu machen, dämpft ein Tiefpaßfilter im Rückkopplungspfad hochfrequente Partialschwingungen schneller als niederfrequente. Mehrsaitige Systeme wie eine Gitarre werden mit mehreren Erregerblöcken modelliert. Bei Echtzeit-Systemen nutzt man auch bei diesem Verfahren im Erregersystem Tabellen, um Rechenzeit zu sparen. Der Resonanzkörper wird wiederum durch einen Digitalfilter beschrieben.

Diese grundlegenden Modelle lassen sich in vielfältiger Weise ergänzen, um wichtige Phänomene der realen Klangerzeugung zu berücksichtigen. So klingt beispielsweise eine schwach gespannte Saite etwa eines Banjos bei hartem Anschlag zu Anfang etwas schärfer, was sich durch Variation der Grundschwingung modellieren läßt. Anspruchsvoller ist schon, die Schwingungen des Steges zu modellieren. Weil er sich meist senkrecht zum Korpus leichter bewegen kann als parallel dazu, müssen im Grunde schon bei einer einzelnen, schräg angeschlagenen Saite zwei gekoppelte Schwingungen unterschieden werden; dies läßt sich mit zwei Wellenleitern modellieren.

Dicke Klaviersaiten tiefer Töne oszillieren zudem auch longitudinal, also entlang der Saite. Ein dritter Wellenleiter erfaßt auch diesen Effekt; weil Kompressionswellen schneller laufen, ist er deutlich kürzer als die anderen beiden. Da ein Klavierton von drei resonant schwingenden Saiten durch den Schlag eines Hammers hervorgebracht wird, wären im Grunde je Ton neun gekoppelte Wellenleiter erforderlich. Auch der Resonanzboden darf nicht vergessen werden, den man als großen Digitalfilter oder als Netz von Wellenleitern nachbildet. Die Kunst besteht auch beim physical modeling in der Beschränkung auf das absolut Erforderliche im Sinne eines guten Klangergebnisses.

Freilich gibt es nicht nur Beschränkungen durch den derzeitigen Stand der Technik, es sind auch einige Probleme noch nicht gelöst. So vergrößern nichtlineare Effekte bei Rückkopplungen die Zahl der Partialtöne. Ferner ist das Entstehen von Turbulenz in einem Rohr noch nicht zu modellieren. Schließlich sind die physikalischen Vorgänge teilweise nicht exakt beschreibbar, etwa jene im Mundstück von Doppelrohrblattinstrumenten wie der Oboe oder an der Öffnung des Schalltrichters von Blechblasinstrumenten.

Frequenzmodulation, Sampling und physical modeling finden sich jetzt in vielen kommerziellen Klangerzeugern, und keine Technik hat die andere wirklich abgelöst. Sie werden entsprechend ihren spezifischen Möglichkeiten und Grenzen genutzt. Mit steigender Leistung und sinkenden Kosten der Hardware wurden und werden immer anspruchsvollere Verfahren einem breiten Anwenderkreis zugänglich. Deshalb dürften auch virtuelle Instrumente in Zukunft noch stärker vertreten sein. Kommerziell erfolgreich sind vor allem kombinierte Systeme, welche die Vorteile eines Tonerzeugungsverfahrens ausspielen und seine Nachteile durch ein anderes kompensieren.

Die Entwicklungen von Frequenz- modulation und Sampling sind weitgehend abgeschlossen. Wichtige Neuerungen vollziehen sich in der virtuellen Akustik. Neue Modelle, neue Methoden und immer wieder neue Klänge werden entstehen. Dabei geht es nicht allein um die perfekte Simulation einer Gitarre, einer Klarinette oder eines Flügels, sondern auch darum, bisher nicht gehörte Klänge zu erzeugen und zu der sich wandelnden musikalischen Ästhetik beizutragen.

Dazu ist freilich erforderlich, die subjektive Wahrnehmung des Menschen in das Kalkül einzubeziehen. Kenntnisse der Psychoakustik tragen zum Entwurf von Instrumenten bei, seien sie real oder virtuell. So vermag das menschliche Gehirn aus einem harmonischen Partialtonspektrum eine in Wirklichkeit fehlende Grundschwingung zu bestimmen und zu hören. Beispielsweise erzeugt ein Fagott die 110 Hertz des Tons A gar nicht, sondern lediglich die Frequenzen von a1, cis2 und e2 mit 440, 550 beziehungsweise 660 Hertz – das A entsteht nämlich als Differenzton bei der Verarbeitung des Gehörten.

Manche Frequenzen maskieren andere. Beispielsweise werden niedrige besser wahrgenommen als höhere und können also diese schon bei vergleichsweise geringen Pegeln überdecken. Es gibt Effektgeräte, die unter der Bezeichnung Psychoakustik-Prozessoren das Ergebnis eines Klangerzeugers dementsprechend nochmals bearbeiten. Zudem machen sich Verfahren zur Verdichtung von Audiodaten diesen Umstand zunutze, indem sie verdeckte Frequenzen aus dem Datensatz eliminieren.

Bislang war stets die Rede von einem Klangerzeuger. Musik beinhaltet aber meist ein Zusammenspiel verschiedener Instrumente, deren Frequenzen ein gemeinsames Spektrum des Klangkörpers bilden (Komponisten insbesondere des 20. Jahrhunderts nutzten die Orchesterzusammenstellung intensiv zur Klangfarbensteuerung). Sogenannte Mittenfrequenzen sind allen Instrumenten gemeinsam; sie häufen sich beim Zusammenspiel mehrerer Instrumente und werden dann als unangenehm empfunden. Deshalb sollten reine Begleitklänge einen möglichst geringen und zudem deutlich unterscheidbaren Frequenzumfang haben, während ein Soloinstrument sozusagen aus dem Vollen schöpfen darf, um im Vordergrund zu stehen.

So bewegt sich die Entwicklung digitaler Klangerzeuger auf der Nahtstelle zwischen Computertechnik, Musikwissenschaft und Psychoakustik. Letztlich profitieren Musiker, Zuhörer und Musikindustrie von den Fortschritten in diesen drei Bereichen.

Literaturhinweise

- The Synthesis of Complex Audio Spectra by Means of Frequency Modulation. Von John M. Chowning in: Journal of the Audio Engineering Society, Band 21, Heft 7, Seiten 526 bis 534, 1973.

– Digital Synthesis of Plucked String and Drum Timbres. Von K. Karplus und A. Strong in: Computer Music Journal, Band 7, Heft 2, Seiten 43 bis 55, MIT Press, 1983.

– Klang: Musik mit den Ohren der Physik. Von John R. Pierce. Spektrum Akademischer Verlag, Heidelberg 1985.

– Die Physik der Musikinstrumente. Spektrum der Wissenschaft: Verständliche Forschung. Spektrum Akademischer Verlag, Heidelberg 1988.

– The Physics of Musical Instruments. Von N. H. Fletcher und T. D. Rossing. Springer, New York 1991.

– The Historical CD of Digital Sound Synthesis. Computer Music Currents 13. Herausgegeben von Johannes Goebel, Schott Wergo Music Media, Mainz, 1995.

– Dreams of Computer Music – Then and Now. Von F. Richard Moore in: Computer Music Journal, Band 20, Heft 1, Seiten 25 bis 41, MIT Press, 1996.

– Physical Modeling Synthesis Update. Von Julius O. Smith III in: Computer Music Journal, Band 20, Heft 2, Seiten 44 bis 56, MIT Press, 1996.

– Bitte beachten Sie auch die Anzeige auf Seite 79

Kasten: Steuerung von Musik-Hardware mit MIDI

Ende der siebziger Jahre war abzusehen, daß mehr und mehr Mikroprozessoren in elektronischen Instrumenten Verwendung finden würden. Die bis dahin gültige Norm für die Steuerspannung von Synthesizern und Klangmodulen – ein Volt entsprach einer Tonänderung um eine Oktave – reichte nicht mehr aus. In den Jahren 1982 und 1983 wurde deshalb ein systemübergreifender Kommunikationsstandard für digitale Musikinstrumente vereinbart: das musical instruments digital interface, kurz MIDI. Es umfaßt zunächst als Hardware eine unidirektionale serielle Datenleitung, das heißt eine Verbindung, auf der Bit für Bit transferiert wird; die Übertragungsrate beträgt 31,25 Kilobyte pro Sekunde. Des weiteren enthält die Spezifikation die zu transportierenden Datentypen, sogenannte Events, insbesondere Anweisungen an Tonerzeuger, Steuerungsbefehle für Klangparameter wie die Lautstärke sowie Hüllkurvenparameter oder Filter.

Ein Ton muß per Note-On-Befehl aktiviert und mit einem Note-Off-Befehl wieder gestoppt werden. Jedes MIDI-Event erfordert mehrere Angaben, so beispielsweise eine Kanalnummer, auf der ein Klangerzeuger angesprochen werden soll, sowie die auf eine Klaviatur bezogene Nummer der Note und ihre Anschlagstärke. (Sogenannte Pitch-Bend-Kontrollbefehle ermöglichen den nahtlosen Übergang zwischen zwei Tönen; diesen Befehl nutzt man auch, um das Spielen ohne Klaviatur und somit ohne fixen Tonvorrat mit MIDI zu ermöglichen.) Weil die Kanaladresse in vier Bit verschlüsselt ist, kann man zugleich 16 unterschiedliche Klänge eines oder mehrerer MIDI-Instrumente ansprechen. Ein Event benötigt maximal drei Byte. Eine Ausnahme davon sind so- genannte systemexklusive MIDI-Events ohne festgelegte Länge und Kanal. Sie übertragen im wesentlichen gerätespezifische Informationen wie Klangprogramme, Effekteinstellungen oder abzuspielende Samples.

Da MIDI eine serielle Datenübertragung ist, gibt es keine Gleichzeitigkeit der Ereignisse. Zwei auf einem Keyboard gemeinsam angeschlagene Noten lösen Töne bis zu eine Millisekunde nacheinander aus – ein Akkord wird also immer arpeggiert. Weil das menschliche Ohr Schallereignisse im Abstand von durchschnittlich zehn bis zwanzig Millisekunden aufzulösen vermag, kann dies bei vielstimmigen Akkorden kritisch werden.

Hard- und Softwaresysteme zum Steuern von Musikinstrumenten sowie zur Aufnahme, Bearbeitung und Wiedergabe der Befehle bezeichnet man als Sequenzer. Der Name rührt daher, daß sie Tonbandmaschinen nachempfunden sind und Informationen deshalb auf Spuren und in Sequenzen ablegen. Der entscheidende Unterschied zu konventionellen Mehrspur-Aufnahmesystemen ist die komfortable Möglichkeit zur Nachbearbeitung der Musik, beispielsweise zum Schneiden, Kopieren und Verschieben ohne Qualitätsverlust.

Mittlerweile kann man mit hochwertigen Sequenzern auch Audiodateien als synchronisierte Samples einbinden, bearbeiten und sogar mitunter in MIDI-Daten umsetzen. Dabei wird die Tonhöhe aus dem Frequenzspektrum bestimmt und die zeitliche Position aus den Peaks auf der Zeitachse. Für vergleichsweise einfaches Audiomaterial wie monophone Gitarrenpassagen ist das Verfahren bereits hinreichend geeignet; Melodien oder musikalische Motive ließen sich so eingeben. Ein Sequenzer kann MIDI-Daten meist auch als herkömmliche Notation darstellen (wie Notationsprogramme im allgemeinen umgekehrt musikalische Zeichen in Events konvertieren können). Vor allem aber lassen sich mit dieser Technik Grooves genannte Muster gewinnen: Aus der Aufnahme einer Schlagzeugpassage wird damit eine MIDI-Sequenz erzeugt; sie enthält die leichten, unregelmäßigen Abweichungen der Noten vom mathematisch korrekten Zeitmaß, die der Musik einen dynamischen und eigenwilligen Charakter geben – den Groove (Bild). Auch die Dynamik läßt sich ermitteln. Diese Muster kann man nun nicht nur wieder für Perkussionsinstrumente verwenden, sondern auch anderen synthetischen Klängen unterlegen, um einem Arrangement Lebendigkeit zu verleihen.

Aus: Spektrum der Wissenschaft 11 / 1997, Seite 74
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Download (Abo)

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Trends in der Musiktechnik I: Digitale Klangerzeugung

Kennen Sie schon …

Spektrum - Die Woche – Die Mär vom Matriarchat

Schreiben Sie uns!

Themenkanäle

Extremwetter

Naturkatastrophen

Hurrikane