Direkt zum Inhalt

Irreführung durch Software

Wer seine Meß- oder Erhebungsdaten im blinden Vertrauen von einem der gängigen Statistik-Programme auswerten läßt, erhält möglicherweise völlig falsche Resultate, ohne gewarnt zu werden.


Ein Chemiker, Mediziner oder Soziologe, der in langer Arbeit eine große Menge an Meß- oder Befragungsdaten gesammelt hat, möchte daraus zwar statistisch gesicherte Schlüsse ziehen; beispielsweise will er wissen, ob die beiden Meßgrößen A und B einander proportional sind, ob man die Schwankungen der Variablen C als Folge entsprechender Schwankungen von A und B deuten kann und wie sicher man sein kann, daß eine solche Korrelation nicht nur durch Zufallseffekte beziehungsweise Meßfehler vorgetäuscht wird.

Aber deswegen will er sich eigentlich nicht mit der Statistik als Wissenschaft befassen. Am liebsten würde er seine Daten ohne weiteres einem der marktüblichen Software-Pakete anvertrauen. Eben das kann sehr gefährlich sein.

Die Arbeitsgruppe "Computational Statistics" der Biometrischen Gesellschaft und die Arbeitsgruppe "Statistische Auswertungs-Systeme" der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS) haben zu diesem Problemkreis einen umfangreichen Test durchgeführt. In den vergangenen drei Jahren untersuchten die Experten die Programmpakete BMDP, Data Desk, Excel, GLIM, DISP, SAS, SPSS, S-PLUS und Statgraph auf numerische Zuverlässigkeit. Der Abschlußbericht "Numerical Reliability of Data Analysis Systems" ist bei der Zeitschrift "Computational Statistics & Data Analysis" zur Publikation eingereicht. Als Prüfstein diente eine Sammlung fiktiver Daten mit einigen Eigenschaften, die erfahrungsgemäß bei der Auswertung numerische Probleme bereiten (siehe nebenstehenden Kasten).

Die Resultate waren erschreckend: Keines der Programme funktionierte so, daß die Statistiker es unbedenklich einem Nicht-Fachmann an die Hand geben möchten. Für Mittelwerte und Streuungen von Variablen, die man mit Papier und Bleistift mühelos ausrechnen könnte, lieferten einige Programme Werte, die um Größenordnungen falsch waren. Manche druckten auch Zahlenwerte für Größen, die es gar nicht gab, etwa den Mittelwert einer Variablen, für die keine Messungen vorlagen. Der Versuch, eine Kurve durch neun gegebene Punkte zu legen, scheiterte in den meisten Fällen kläglich (Bild auf Seite 18). Gelegentlich hing ein Ergebnis davon ab, in welcher Reihenfolge die Variablen eingegeben worden waren.

Überraschenderweise liefert unter Umständen ein und dasselbe Programm auf verschiedenen Rechnern unterschiedliche Ergebnisse (weswegen sich die ganze Untersuchung auch aufwendiger gestaltete als ursprünglich vorgesehen). Man muß also nicht nur den Ergebnissen der Berechnungen mißtrauen, sondern kann sich noch nicht einmal darauf verlassen, daß ein Kollege an einer anderen Universität, der mit dem gleichen Programm dieselbe Auswertung durchführt, dieselben Resultate erhält.

Die Arbeitsgruppe will ihre Untersuchung nicht wie einen üblichen Warentest verstanden wissen und hat dementsprechend keine zusammenfassenden Urteile wie "empfehlenswert" oder "mangelhaft" abgegeben. Vielmehr hat sie ihre Aktion als eine Art Vorprüfung (entry level test) aufgefaßt, mit dem Ergebnis, daß die Programme sämtlich zur Nachbesserung an die Hersteller zurückzuverweisen seien. Einige der mit dem Urteil konfrontierten Firmen reagierten kooperativ und versprachen für die Zukunft bessere Software, andere gaben lediglich grobe Kommentare ab. Vorläufig kann die Arbeitsgruppe Anwendern nur zur Vorsicht raten.

Wie ist dieser Befund zu erklären? Einerseits durch den Marktmechanismus: Schnelligkeit bringt mehr ein als Sorgfalt. In vielen Fällen ist den aufgezeigten Programmschwächen leicht abzuhelfen, indem man besser verständliche Fehlermeldungen einfügt, Benutzerhandbücher eindeutig abfaßt und die Formate für die eingelesenen und ausgegebenen Daten geschickter wählt.

Zum anderen ist ein großer Teil der Schwierigkeiten, an denen einige Programme scheiterten, weder neu noch statistiktypisch, sondern in den Tücken der Numerik begründet. (Darum ist anzunehmen, daß Software für andere Zwecke bei einem vergleichbaren Massentest ähnlich schlecht abschneiden würde.) Die noch mit Bleistift und Papier rechnenden Praktiker kannten zwar bereits Anfang dieses Jahrhunderts wirksame Abhilfen; nur hing man dem Irrglauben an, die größere Rechengenauigkeit des Computers würde diese Probleme gleich mit erledigen.

Ein Programm, das jeden denkbaren Datensatz korrekt verarbeitet, ist prinzipiell unmöglich: Es müßte mit beliebig hoher Genauigkeit rechnen können; aber Rechenzeit und Speicherplatz sind beschränkt. Man muß also akzeptieren, daß jedes Programm Leistungsgrenzen hat.

Die sind jedoch für einen Benutzer nicht ohne weiteres erkennbar (siehe Kasten); man muß also – insbesondere von einem Produkt für Nicht-Fachleute – verlangen, daß das Programm die Bearbeitung verweigert, wenn es überfordert wird, und dafür eine brauchbare Begründung gibt, so daß der Benutzer zum Beispiel seine theoretischen Annahmen neu überdenken kann; es darf nicht durch irgendwelche Ergebnisse, die vielleicht auch noch plausibel aussehen, in die Irre führen.

Drittens können die Programme auf gewisse Grundoperationen des Computers, auf dem sie ablaufen, nur um den Preis erheblich höherer Rechenzeit Einfluß nehmen. Dazu gehört insbesondere die Rundung von Zwischenergebnissen. Wenn man zwei Zahlen mit je acht gültigen Stellen multipliziert, hat das Ergebnis zunächst 16 Stellen und muß deshalb wieder auf acht Stellen gerundet werden. Die Entscheidung, wann dabei auf- und wann abgerundet wird, beeinflußt das Endergebnis möglicherweise erheblich.

Entweder greift ein Programm auf das in der Hardware realisierte Standard-Rundungsverfahren zurück; das variiert aber zwischen Rechnern verschiedenen Typs, was die unterschiedlichen Ergebnisse bei Einsatz desselben Programms erklärt. Oder man schreibt die Rundungsweise im Programm explizit vor und nimmt dafür eine längere Rechenzeit in Kauf; das ist allerdings bislang nicht üblich.

Paradoxerweise sind die Rundungsalgorithmen auf den Großrechnern tendenziell schlechter als die auf PCs. Das liegt daran, daß die neuen, besseren Verfahren für die Großrechner zwar sehr wohl verfügbar, aber nahezu unverkäuflich sind: Deren Betreiber bestehen angeblich darauf, daß eingeführte Standard-Testprogramme – sogenannte Benchmarks – mit neuer Hardware dieselben Ergebnisse liefern wie zuvor. Diese Referenzergebnisse sind jedoch mit alten, schlechten Rundungsverfahren gewonnen worden.

An derselben Begründung scheitert die Markteinführung bereits verfügbarer Compiler (Programme, die ein in einer Programmiersprache geschriebenes Programm in maschinenlesbare Form verwandeln) mit besseren Rundungsalgorithmen. Auch der IEEE-Standard, eine Quasi-Norm zur Festlegung von Genauigkeit und Rundungsverfahren, hat sich bisher in der Großrechnerwelt nicht recht durchsetzen können.

Einstweilen ist also eine Verbesserung in einer der fortschrittlichsten Technologien dem alten dummen Prinzip "Das haben wir schon immer so gemacht" zum Opfer gefallen.

 

 

Numerische Probleme statistischer Auswertungen


Leland Wilkinson, Professor an der Northwestern University in Evanston (lllinois) und Inhaber des Software-Unternehmens Systat, veröffentlichte 1985 als Firmenpublikation das "Statistics Quiz". Diese Sammlung fiktiver Daten mit zugehörigen Auswertungsaufgaben hat den Zweck, Statistik-Programme bis an ihre Grenzen zu testen. Sie besteht aus glatten, für einen menschlichen Betrachter leicht überschaubaren Zahlen, die so wohl kaum Ergebnis einer echten Meßreihe sein können. Indes kommen Messungen, die die Auswertungsprogramme vor die gleichen Probleme stellen, keineswegs selten vor.

Man stelle sich beispielsweise einen Chemiker vor, der eine ihm unbekannte Substanz X untersuchen will. Er läßt eine Flüssigkeit, die X enthält, gleichmäßig in ein Gefäß mit anderen Reagenzien tropfen, zieht in gleichen Zeitabständen Stichproben aus dem (gut umgerührten) Gemisch und untersucht diese mit verschiedenen Meßgeräten auf denkbare Reaktionsprodukte. Es ergibt sich die untenstehende Tabelle.

Unter den Variablen Little, Huge, Tiny und so weiter darf man sich chemische Substanzen vorstellen; die Namen, die Wilkinson ihnen gegeben hat, beziehen sich auf deren numerisch problematische Eigenschaften.

Das computergesteuerte Meßgerät des gedachten Chemikers hat zu jeder Stichprobe die Uhrzeit festgehalten und in die Variable "Big" geschrieben. Aus irgendwelchen Gründen entspricht der Zeit-Nullpunkt der in den Computer eingebauten Uhr einer weit zurückliegenden Zeit, weswegen sämtliche Zeitangaben mit sieben Neunen beginnen; erst die letzte Ziffer ist interessant. Im Prinzip ist dagegen nichts einzuwenden, denn für die chemische Reaktion kommt es nur auf Zeitdifferenzen, nicht auf eine willkürlich festgelegte Anfangszeit an.

Unter "X" sei die Menge der seit Beginn eingetröpfelten Flüssigkeit notiert. Die erste der untersuchten Substanzen ("Zero") entsteht überhaupt nicht, weswegen das zugehörige Meßgerät jedesmal 0 anzeigt. Das Gerät für die zweite Substanz ist defekt und meldet regelmäßig Fehlanzeige (durch einen dicken Punkt gekennzeichnet). Die Substanz "Little" war durch eine Verunreinigung schon vorher relativ reichlich im Gefäß vorhanden und wird durch die ablaufende Reaktion nur in äußerst geringem Maße vermehrt. Das Meßgerät für "Huge" ist auf Molekülanzahlen geeicht; 1.0E+12 ist die computerübliche Schreibweise für 1012. Bei der ersten Messung waren demnach 1012 Huge-Moleküle vorhanden. Dagegen gibt das Meßgerät für "Tiny" seine Ergebnisse in Kilogramm wieder. Zahlen in der Größenordnung von 1012 oder 10–12 sind in Physik und Chemie durchaus keine Seltenheit. Von "Round" schließlich war auch bereits einiges im Gefäß, jedoch in der gleichen Größenordnung wie das, was durch die Reaktion hinzukam.

Bei näherem Hinschauen stellt sich heraus, daß die Situation extrem einfach ist: Sämtliche gemessenen Größen sind bis auf eine additive Konstante proportional zu X. Wenn man eine von ihnen gegen irgendeine andere aufträgt, ergibt sich in jedem Fall eine Gerade.

Was einem aufmerksamen, mit Bleistift und Papier rechnenden Menschen sofort aufgefallen wäre, bereitet einem Computerprogramm jedoch möglicherweise Schwierigkeiten. Die Genauigkeit der Zahldarstellung – die Anzahl der gültigen Ziffern, die der Computer im Speicher hält und mit denen er rechnet – ist begrenzt; für einfache Probleme ist je nach verwendeter Hard- und Software eine Genauigkeit von sechs bis acht Dezimalstellen üblich. Bereits beim Einlesen können also die Werte von "Big" und "Little" auf einen Einheitswert gerundet und damit unbrauchbar geworden sein. Einige der getesteten Programme geben keine klare Auskunft über die benutzte Genauigkeit.

Manche Programme verwenden bei der Ausgabe statt der Gleitkommadarstellung (Beispiel: 8.1571859E-5; Computerverlangen einen Punkt anstelle des Kommas) eine – in diesem Fall ungeschickte – Festkommadarstellung (0.000081571859); bei Rundung auf sechs Stellen hinter dem Dezimalpunkt bleiben nur noch zwei signifikante Stellen übrig, der Rest an Genauigkeit geht dem Benutzer verloren.

Selbst wenn die Daten korrekt eingelesen werden, kann die begrenzte Genauigkeit problematisch werden. Im Rahmen der Auswertung sind regelmäßig Differenzen zwischen verschiedenen Werten derselben Variablen zu bilden. Beispielsweise ist die Steigung der oben angesprochenen Geraden (der sogenannten Regressionsgeraden) ein Quotient aus derartigen Differenzen. Für die graphische Darstellung gilt Ähnliches.

Subtrahiert man jedoch etwa zwei Werte von "Little", so bleibt von acht gültigen Stellen nur noch eine übrig. Das ist die in der Numerik gefürchtete Auslöschung signifikanter Stellen. Tritt sie irgendwann während des Rechenprozesses auf, so pflanzt sich der Genauigkeitsverlust bis zum Endergebnis fort; in dem genannten Fall wäre also von allen Ergebnissen, in die Differenzen von ,Little" eingehen, bestenfalls noch eine Stelle glaubwürdig.

Gelegentlich ist die Auslöschung durch eine geschicktere Anordnung der Rechenschritte vermeidbar. Sie kann aber auch – unvermeidlich – dadurch verursacht sein, daß die Daten entgegen dem ersten Anschein mehr Genauigkeit nicht hergeben: Die effektive Genauigkeit einer Variablen wie "Big" oder "Little" beträgt nun mal nur eine Dezimalstelle.

In diesem konstruierten Beispiel ist das zwar – auch ohne Statistikprogramm – ohne weiteres erkennbar. Auslöschung kann jedoch auch später im Verlauf der Auswertung auftreten. Daraus folgt, daß gewisse Beobachtungsdaten eine Antwort auf eine vernünftige Frage nicht erlauben, ohne daß man diesen Mangel dem auswertenden Statistiker zuschreiben könnte. Das kommt nicht nur in der Theorie vor. Das Beispiel in obenstehender Tabelle, das hier die Statistiker das Fürchten gelehrt hat, ist eine Sammlung von Bevölkerungsdaten der USA, die J. W. Longley 1967 zusammengestellt hat ("Journal of the American Statistical Association", Band 62, Seiten 819 bis 841).

In diesen Daten spiegelt sich eine Fülle von Einflüssen: Korea-Krieg mit zugehörigem Wirtschaftsaufschwung, Einwanderung, Bevölkerungswachstum und etliches mehr. Gleichwohl sind die Variablen hochkorreliert: Wie in Wilkinsons Test würden sich, mit geringen Abweichungen, Geraden ergeben, wenn man eine der Variablen gegen eine andere aufträgt – die Jahreszahl ausgenommen. Im Prinzip ist es vernünftig, die Arbeitslosenzahl als abhängig von der Gesamtbevölkerungszahl und vom Bruttosozialprodukt als Indikator der Konjunktur deuten zu wollen. Erst die Auswertung der Daten lehrt einen, daß in diesem Fall die Wirkungen beider Einflußgrößen nicht zu trennen sind: Ob man die Arbeitslosenzahl mehr der Wirtschaftslage oder mehr der Bevölkerungszahl zuschreibt, ist einerlei, denn beide wirken in die gleiche Richtung.

Die Daten bieten also keine brauchbare Berechnungsgrundlage für diese Einflußfaktoren; wenn ein Programm sie dennoch zu berechnen versucht, hängt das Ergebnis möglicherweise von Rundungsfehlern in der letzten Stelle ab.


Aus: Spektrum der Wissenschaft 11 / 1993, Seite 18
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!