Die Mathematik
der Fairness

Egal ob Menschen oder Maschinen Entscheidungen treffen: Es besteht immer die Gefahr, dass bestimmte Gruppen benachteiligt werden. Lässt sich Fairness überhaupt erreichen? Probieren Sie es selbst aus!

Text: Christoph Drösser
Grafiken und Programmierung: Jonas Parnow

Im Jahr 2015 geriet Amazon in die Kritik. Es ging um den neuen »same-day delivery service«, die Auslieferung von Bestellungen mancher Produkte noch am selben Tag. Der Dienst wurde in den USA nicht landesweit eingeführt, sondern nur in ausgewählten Postleitzahl-Bezirken. Und in denen wohnten vorwiegend weiße, gut betuchte Kunden. Der Firma wurde vorgeworfen, ihre Auswahl sei rassistisch und benachteilige Menschen dunkler Hautfarbe. Amazon hielt dagegen: »Wir wissen nicht, wie unsere Kunden aussehen.« Die Hautfarbe habe bei der Entscheidung keine Rolle gespielt.

Das Beispiel zeigt: Wenn eine Entscheidung bestimmte gesellschaftliche Gruppen benachteiligt, muss die »sensible Eigenschaft« dieser Gruppen, also etwa Hautfarbe oder Geschlecht, nicht explizit eine Rolle gespielt haben. Amazon hat wahrscheinlich Größen wie das durchschnittliche Haushaltseinkommen oder die Entfernung vom nächsten Warenlager in seine Entscheidung einfließen lassen. Aber die korrelieren nun mal häufig mit der Hautfarbe der Bewohner.

Egal ob Menschen oder Maschinen Entscheidungen treffen, es besteht immer die Gefahr, dass bestimmte Gruppen benachteiligt werden. Maschinelle Verfahren treffen ihre Entscheidungen nach mathematischen Prinzipien (die nicht immer durchschaubar sind), Menschen lassen bei ihren Entscheidungen Emotionen und »Bauchgefühl« einfließen. Das eine ist nicht grundsätzlich fairer als das andere. In beiden Fällen sollte man das Ergebnis der Entscheidungen hinterfragen können.

Damit das gelingt, muss man Entscheidungsprozesse nachvollziehen. Dafür werden wir uns mehreren Beispielen widmen, in denen über das Schicksal von Menschen entschieden wird – und Sie machen mit! Aus einer großen Anzahl von Personen sollen diejenigen herausgesucht werden, die ein bestimmtes Wunschkriterium erfüllen: Angestellte, die für einen Job hervorragend geeignet sind. Straftäter, die man frei lassen kann, weil sie kein neues Verbrechen begehen werden. Kreditwürdige Bankkunden, die pünktlich ihre Raten zahlen.

Der Einfachheit halber nehmen wir dafür an, dass jeder Mensch das jeweilige Kriterium entweder erfüllt oder nicht erfüllt. Idealerweise finden wir einen Filter, der genau diejenigen herauspickt, die zur Wunschmenge gehören, und die anderen außen vor lässt. Doch das ist in der Praxis meistens unmöglich, weil wir nur unvollständige Kenntnisse über Menschen haben und sich Einschätzungen meist auf die Zukunft beziehen.

Algorithmen benutzen deshalb einen so genannten Classifier, der eine gewünschte Eigenschaft einschätzen soll. Dabei kommt es unweigerlich zu Fehlurteilen: Menschen werden fälschlich als »positiv« deklariert, auch wenn sie das Kriterium nicht erfüllen, oder umgekehrt als »negativ«, obwohl sie sehr wohl zu der Wunschmenge gehören. Das sind Einzelfälle, bei denen die Entscheidungen nicht fair waren.

Uns interessiert aber vor allem, ob ganze Gruppen systematisch falsch klassifiziert werden. Haben People of Color schlechtere Chancen, einen Kredit zu bekommen? Werden Frauen bei der Jobsuche benachteiligt? Das wollen wir an Beispielen untersuchen.

Programmierer gesucht!

Das erste Beispiel ist fiktiv. Es geht um eine mögliche Geschlechterdiskriminierung in einer Branche, die ohnehin schon männerdominiert ist. Ein Start-up will Programmiererinnen oder Programmierer einstellen und dafür eine digitale Anzeige in sozialen Medien schalten, also nicht in einem Fachforum. Um kein Geld zu verschwenden, sollen nicht alle Nutzerinnen und Nutzer die Anzeige sehen. Stattdessen wird der Adressatenkreis – wie heute üblich – auf Grund gewisser persönlicher Eigenschaften eingeschränkt, um eine höhere Trefferquote zu erreichen.

Das Start-up bezahlt dafür, dass die Anzeige 2000 Menschen präsentiert wird. Für die Firma ist es also wichtig, dass unter diesen 2000 Personen möglichst viele Programmiererinnen und Programmierer sind. Diese Quote wird die Präzision der Anzeigenschaltung genannt. Sie soll am Ende möglichst nahe bei 100 Prozent liegen.

Es ist allgemein bekannt, dass (aus Gründen, die wir in dieser Anwendung nicht weiter untersuchen) mehr Männer den Programmiererberuf ergreifen als Frauen. Nehmen wir dafür folgende, rein hypothetische Zahlen an:

5 Prozent aller Männer sind Programmierer
1,2 Prozent aller Frauen sind Programmiererinnen

Dann sind unter 2000 zufällig herausgegriffenen Erwachsenen (1000 Männer, 1000 Frauen) etwa 50 männliche und 12 weibliche Programmierer. Zeigt man die Anzeige den Usern ohne irgendwelche Einschränkungen, dann beträgt die Präzision der Kampagne ⁶²⁄₂₀₀₀, also 3,1 Prozent.

Programmiererinnen	Programmierer
Nichtprogrammiererinnen	Nichtprogrammierer

Anzeige gezeigt

Präzision

Wie viele von denen, die die Anzeige gesehen haben, sind Programmiererinnen und Programmierer?

Richtig-positiv-Raten

Wie groß ist die Chance einer Programmiererin / eines Programmierers, die Anzeige zu sehen?

Das ist eine sehr magere Ausbeute. Wir suchen also nach einem Classifier, der nach gewissen Regeln bestimmte Nutzerinnen und Nutzer herausfiltert und vorrangig ihnen die Anzeige präsentiert. Unter diesen Personen sollen möglichst viele Programmiererinnen und Programmierer sein.

Ideal wäre es, wenn man genau wüsste, ob ein User oder eine Userin programmiert, etwa weil diese Eigenschaft im persönlichen Profil auf der Plattform eingetragen wurde. Dann könnten die Firma einen Filter einsetzen und sagen: Zeigt die Stellenanzeige nur diesen Nutzerinnen und Nutzern. Die von diesem Classifier herausgefilterten Menschen wären exakt diejenigen, denen wir die Anzeige präsentieren wollen.

Diese Information haben wir allerdings nicht. Wir müssen daher versuchen, andere Eigenschaften zu finden, die die Chance erhöhen, dass eine Userin oder ein User Programmierkenntnisse hat.

Es gibt ein einfaches Mittel, die Präzision zu erhöhen: Man zeigt die Anzeige nur männlichen Besuchern der Website. Greift man davon 2000 zufällig heraus, dann sind darunter etwa 100 Programmierer – die Präzision steigt auf ¹⁰⁰⁄₂₀₀₀, also 5 Prozent.

Abgesehen davon, dass dieser Wert immer noch nicht besonders gut ist, ist zudem offensichtlich, dass hier klar diskriminiert wird und die Schaltung der Anzeige nicht fair ist. Keine einzige Programmiererin bekommt sie schließlich auf diesem Weg zu sehen. Das Start-up will sich auf keinen Fall dem Vorwurf aussetzen, Frauen zu benachteiligen – also vergessen wir diesen Plan ganz schnell wieder.

Was wäre aber nun eine faire, nicht diskriminierende Form, die Anzeige zu schalten? Sie haben die Wahl zwischen zwei Alternativen:

Gleich viele Frauen und Männer sollen die Anzeige sehen.
Die Chance, die Anzeige zu sehen, soll für männliche und weibliche Programmierer gleich sein.

Das soziale Netzwerk, in dem die Anzeige geschaltet wird, erfasst das Surfverhalten der User und Userinnen im Netz. Viele Coderinnen und Coder treiben sich zum Beispiel im Github-Forum herum, auf dem man Programme speichern und mit anderen teilen kann. Die überwiegende Mehrheit der Nutzer sind Programmiererinnen und Programmierer (für unser Beispiel nehmen wir an: 80 Prozent). Außerdem ist das Forum unter männlichen und weiblichen Softwareentwicklern gleich beliebt.

Was ist, wenn man die Anzeige nur denjenigen zeigt, die auf Github aktiv sind? Dann kommt Folgendes heraus:

80 Prozent Präzision – da freut sich der Auftraggeber. Doch ist das fair? Anders gefragt: Hatten Programmierinnen unter den Besuchern der Social-Media-Website dieselbe Chance, die Anzeige zu sehen? Dazu müssen wir auf die Richtig-positiv-Rate schauen. Die drückt aus, welchen Anteil an Menschen mit der gewünschten Eigenschaft der Classifier auswählt. Im genannten Beispiel beträgt sie für Männer und Frauen jeweils 48 Prozent.

Der Github-Filter scheint unter Gender-Gesichtspunkten fair zu sein. Das ist aber nicht immer der Fall. Ein anderes Beispiel, das tatsächlich Wurzeln in der Realität hat: Eine Personalvermittlungsagentur hat einmal festgestellt, dass sich auf einer Fan-Website für japanische Manga-Comics besonders viele hervorragende (männliche) Programmierer tummeln. Wir nehmen einmal an, dass tatsächlich 90 Prozent der männlichen Nutzer dieser Website Softwareentwickler sind. Die weiblichen User – von denen es genauso viele gibt – gehen diesem Beruf jedoch nur zu 10 Prozent nach. Die übrigen besuchen die Seite, weil sie von den Comic-Zeichnungen fasziniert sind.

Wenn wir nun über Cookies unsere Anzeige nur denjenigen zeigen, die schon einmal im Manga-Forum waren, ergibt sich ein anderes Bild:

Diese Auswahl ist unfair: Während 18 Prozent der Programmierer unter den Besuchern der Social-Media-Seite die Anzeige sehen, sind es nur 8 Prozent der Programmiererinnen. Man muss sich also nicht wundern, wenn sich überproportional viele männliche Kandidaten auf die Stelle bewerben!

Man kann auch ein umgekehrtes Beispiel konstruieren: Die Website »Girls Who Code« will dazu beitragen, dass sich mehr Mädchen und junge Frauen für Informatik interessieren. Sie wird von vielen Informatikern beiderlei Geschlechts besucht – aber natürlich vorrangig von weiblichen. So sehen die Zahlen aus, wenn die Anzeige nur Menschen gezeigt wird, die die »Girls Who Code«-Website besucht haben:

Nun haben die männlichen Programmierer eine schlechtere Chance, die Anzeige zu sehen – ein klarer Fall von Männerdiskriminierung.

Vielleicht lässt sich die Unfairness beseitigen, wenn man mehrere Kriterien auswählt und die Anzeige jenen zeigt, die die eine oder die andere Bedingung erfüllen? Sie können mit der Grafik spielen und eines oder mehrere der eben vorgestellten Auswahlkriterien ankreuzen. Bekommen Sie eine Auswahl zu Stande, die einigermaßen fair ist?

Wie Sie sehen, es ist gar nicht so einfach, den Algorithmus so zuzuschneiden, dass er fair ist und trotzdem eine hohe Präzision hat, also viele Menschen in der anvisierten Zielgruppe erreicht.

Und dabei hatten wir es mit einem vereinfachten Problem zu tun: Wir kannten bei diesem Experiment alle relevanten Größen, insbesondere wie sich die Geschlechter bei den unterschiedlichen Filtern verteilen. In der Realität kennt man diese Zahlen in den meisten Fällen nicht. Man ist auf Vermutungen angewiesen oder kann allenfalls im Nachhinein versuchen, die Fairness der getroffenen Wahl einzuschätzen.

Frei oder hinter Gittern?

Die Frage, ob jemand eine Stellenanzeige zu sehen bekommt oder nicht, ist wahrscheinlich nicht so lebenswichtig, dass sich viele Menschen über Ungleichheiten aufregen würden. Das nächste Beispiel hat in den USA aber heftige Diskussionen ausgelöst. Hier geht es darum, ob ein Tatverdächtiger nach einem Verbrechen in Untersuchungshaft sitzen muss, weil die Gefahr besteht, dass er weitere Verbrechen verüben könnte, oder ob er, im Zweifelsfall gegen Kaution, erst einmal auf freien Fuß kommt. Ein Algorithmus sollte US-Richterinnen und -Richter bei dieser Entscheidung unterstützen. Er hat allerdings eine Diskussion darüber ins Rollen gebracht, ob Afroamerikaner auf Grund ihrer Hautfarbe auch im Rechtssystem systematisch benachteiligt werden.

Über den Straftäter-Algorithmus wissen wir nicht viel. Er ist das Firmengeheimnis eines IT-Anbieters. Das Programm gibt jeder verdächtigen Person, die gefasst wird, einen »Risiko-Score«, eine ganze Zahl zwischen 1 und 10, die die Gefahr eines Rückfalls beziffern soll – genauer gesagt: die Wahrscheinlichkeit, dass dieser Mensch in Zukunft erneut ein Verbrechen begehen wird. Je höher der Wert, desto größer das Risiko. Man stellt einen Schwellenwert ein – wer mindestens diesen Risiko-Score hat, bleibt in Untersuchungshaft, wer darunterliegt, darf bis zur Verhandlung frei sein.

Angenommen, der Score schätzt die Gefährlichkeit der Täter einigermaßen realistisch ein (dazu später mehr). Wenn wir über Hautfarbe reden und nur Schwarze und Weiße betrachten: Was würden Sie in dieser Situation als fair empfinden?

Der Anteil derjenigen, die in Haft bleiben müssen, soll für Schwarze und Weiße gleich groß sein. (Parität)
Die Entscheidung »Haft – ja oder nein« wird unabhängig von der Hautfarbe getroffen – wessen Risiko über dem Schwellenwert liegt, bleibt in Haft. (Farbenblindheit)
Die Chance, ungerechtfertigt in Haft zu bleiben, obwohl sie kein Verbrechen begehen würden, soll für Schwarze und Weiße gleich sein. (Chancengleichheit)
Ich weigere mich, solch eine Entscheidung auf Grund von Zahlenwerten zu treffen – ein Richter sollte bei seiner Entscheidung verschiedene Faktoren miteinbeziehen, unter anderem auch die Persönlichkeit und das Verhalten der Angeklagten.

Sind die ersten drei Fairnesskriterien überhaupt unterschiedlich? Lassen sie sich alle erfüllen? Und wenn man die Entscheidung dem subjektiven Ermessen eines Menschen überlässt: Ist das wirklich fairer? Oder sind die Angeklagten dann lediglich den Vorurteilen und der Willkür dieser Person ausgeliefert? Zumindest die mathematischen Unterschiede zwischen den drei Fairnesskriterien werden wir im Folgenden untersuchen.

Ist der Algorithmus gut kalibriert?

Der Algorithmus, der den Tatverdächtigen einen Risikowert zuweist, beruht auf etwa 130 Faktoren, Hautfarbe und Geschlecht gehören nicht dazu. Alle weiteren Details sind aber das Geheimnis der Firma, die das Verfahren entwickelt hat.

Beschreibt der Algorithmus das Rückfallrisiko angemessen?

Schauen wir uns erst einmal an, wie viele Personen tatsächlich nach der Haft innerhalb von zwei Jahren rückfällig werden. Die folgende Grafik fasst die Ergebnisse einer 2016 veröffentlichten Statistik des Non-Profit-Newsdesk ProPublica zusammen und zeigt, dass die Rückfallquote etwa linear mit der Risikoklasse ansteigt, die vom Algorithmus ausgegeben wird. In Klasse 1 beträgt sie 21 Prozent, in Klasse 10 werden 71 Prozent rückfällig.

Rückfallquote nach Risikoklasse

Der Straftäter-Algorithmus weist jeder verdächtigen Person einen »Risiko-Score« von 1 bis 10 zu. Die Balken beziffern den Anteil jener Personen aus der jeweiligen Klasse, die wieder straffällig wurden.

Der Algorithmus scheint das Risiko also einigermaßen adäquat zu beschreiben, zumindest wenn man die Gesamtstatistik betrachtet.

Niedrigerer Schwellenwert, weniger Verbrechen

Die Strafverfolger müssen nun entscheiden, wo sie die Grenze ansetzen: Ab welcher Risikoklasse müssen die Angeklagten in Haft bleiben? Hier können Sie zum ersten Mal Schicksal spielen: Natürlich bedeutet ein niedriger Schwellenwert mehr Sicherheit, es werden weniger Verbrechen begangen. Gleichzeitig werden jedoch auch viele Menschen, die kein Verbrechen begangen hätten, in Haft gehalten. Wo würden Sie die Grenze ziehen?

Menschen

: frei gelassen, wird rückfällig
: im Gefängnis, würde rückfällig
: frei gelassen, wird nicht rückfällig
: im Gefängnis, würde nicht rückfällig
: frei gelassen, wird rückfällig
: im Gefängnis, würde rückfällig
: frei gelassen, wird nicht rückfällig
: im Gefängnis, würde nicht rückfällig
: frei gelassen, wird rückfällig
: im Gefängnis, würde rückfällig
: frei gelassen, wird nicht rückfällig
: im Gefängnis, würde nicht rückfällig

frei gelassen, wird rückfällig: 1317
im Gefängnis, würde nicht rückfällig: 897

Werden Menschen unterschiedlicher Hautfarbe gleich behandelt?

Dass der Algorithmus über die Gesamtheit der Gefangenen das Risiko ungefähr richtig einschätzt, bedeutet noch lange nicht, dass er auch Menschen unterschiedlicher Hautfarbe gleich behandelt.

Parität

Wenn Sie in der Umfrage oben »Parität« als Fairnesskriterium gewählt haben (also den gleichen Anteil von Verurteilten), dann ist der Algorithmus unfair. Egal wie Sie den Schwellenwert ansetzen – es landet stets ein größerer Anteil Afroamerikaner hinter Gittern.

Farbenblindheit

Die Firma, die den Algorithmus entwickelt hat, hält dem entgegen: Die Software bezieht das Merkmal Hautfarbe gar nicht mit ein. Das Ergebnis kommt dadurch zu Stande, dass Schwarze im Durchschnitt häufiger rückfällig werden. Schaut man hingegen auf die Zahl der Rückfälligen nach Risikoklasse, so ist der Wert bei Schwarzen und Weißen ungefähr gleich.

Rückfallquote nach Hautfarbe und Risikoklasse

: Schwarz
: Weiß

Wie kommt dann die (tatsächliche oder scheinbare) Ungerechtigkeit zu Stande? Es liegt daran, dass Weiße und Schwarze Personen nicht gleich auf die Risikoklassen verteilt sind.

Verteilung der Risikoklassen für Schwarze und Weiße

: Schwarz
: Weiß

Es ist mathematisch beweisbar, dass bei einer solchen Verteilung die Fairnesskriterien »Parität« und »Farbenblindheit« nicht beide gleichzeitig erfüllbar sind. Man muss sich für eines der beiden entscheiden.

Chancengleichheit

Kritiker könnten einwenden: Den Schaden haben bei diesem System diejenigen, die im Gefängnis gehalten werden, obwohl sie gar kein neues Verbrechen begangen hätten. Und deren Anteil ist bei den Schwarzen größer als bei den Weißen.

Gleichzeitig werden unter Weißen Menschen mehr Straftäter frei gelassen, die trotzdem wieder Verbrechen begehen.

Es stellt sich also die Frage, wie groß die Chance für einen Nichtwiederholungstäter ist, ungerechtfertigt in Haft zu bleiben? Und wie groß ist die Chance, dass ein Wiederholungstäter frei gelassen wird und weitere Straftaten begeht?

Die Simulationsmaschine

Jetzt können Sie Schicksal spielen: Wir entkoppeln die beiden Schieberegler, Sie können den Schwellenwert für Schwarze und Weiße unabhängig voneinander festlegen. Die Konsequenzen werden Ihnen direkt angezeigt: der Anteil der ungerechtfertigt gefangen Gehaltenen und der Anteil der Rückfälligen, die frei gelassen wurden. Finden Sie eine Einstellung der beiden Regler, die zu einem Ergebnis führt, das Sie fair finden?

Das Experiment zeigt, dass es unmöglich ist, verschiedene Fairnesskriterien unter einen Hut zu bekommen. Insbesondere muss sich jede Einstellung, die unterschiedliche Risikoschwellen für Menschen verschiedener Hautfarben festlegt, vorwerfen lassen, dass sie vielleicht für eine höhere »Gruppenfairness« sorgt, aber Individuen unterschiedlich (und damit unfair) behandelt. Wenn für Schwarze der Risiko-Schwellenwert höher angesetzt wird, kann das zu mehr Verbrechen in mehrheitlich von Schwarzen Menschen bewohnten Stadtvierteln führen.

Vor allem zwei Kritikpunkte haben dazu geführt, dass das algorithmische Entscheidungssystem wieder abgeschafft wurde: Erstens war die Software intransparent, die Firma hat ihre Kriterien nicht offengelegt. Und zweitens verhindert eine Fokussierung auf numerische Risikowerte die Diskussion darüber, warum die Rückfallquote bei bestimmten Bevölkerungsgruppen größer ist. Statt Menschen vorsorglich hinter Gitter zu bringen, könnte man auch darüber nachdenken, welche Hilfen man ihnen anbietet, damit sie eben nicht im ewigen Kreislauf von Verbrechen und Gefängnis stecken bleiben.

»Geschlechtsblind« ist nicht immer gut

Man vermeidet Diskriminierung am besten, indem man die entsprechende Eigenschaft außer Acht lässt – das ist ein Prinzip, das in vielen Gesetzen verankert ist. Wenn man blind gegenüber dem Geschlecht oder der Hautfarbe von Menschen ist, dann kann man sie deswegen auch nicht benachteiligen.

Aber dieses Prinzip funktioniert nicht immer. Zum Beispiel kann es sein, dass das geschützte Merkmal in anderen Variablen verankert ist, die man bei der Entscheidungsfindung berücksichtigt. Manchmal gibt es jedoch tatsächlich Unterschiede, die man berücksichtigen muss, wenn man fair sein will. Zum Beispiel haben Frauen mitunter Lücken im Lebenslauf, weil sie Kinder bekommen haben. Ihnen das bei der Jobsuche negativ anzurechnen, wäre unfair.

Die »Geschlechtsblindheit« kann auch wichtige Zusammenhänge verschleiern. Das soll das folgende – wieder rein hypothetische – Beispiel zeigen, das auf die Informatikerin Katharina Zweig von der TU Kaiserslautern zurückgeht.

Fachleute sind auf der Suche nach einem Mittel gegen die seltene (fiktive) Krankheit Fantositis. Sie vermuten einen Zusammenhang zwischen diesem Leiden und dem Spiegel der beiden (ebenfalls fiktiven) Hormone Anolin und Betasol, die sich offenbar gegenseitig beeinflussen. Wenn wir den genauen Zusammenhang kennen, kann die Krankheit frühzeitig erkannt und behandelt werden.

Wir messen die Hormonspiegel bei 100 Personen, 50 gesunden und 50 kranken. Von denen sind jeweils die eine Hälfte Männer, die andere Frauen.

Sie sind jetzt die künstliche Intelligenz. Sie bekommen die Daten ohne Angabe des Geschlechts der Patienten. Ihre Aufgabe: Sie sollen den mathematischen Zusammenhang zwischen den Hormonen feststellen. Die Gerade in dem Bild hat an den Rändern zwei »Anfasser« – ziehen Sie die so zurecht, dass die Gesamtfläche in einen »gesunden« und einen »kranken« Bereich aufgeteilt wird, mit möglichst wenigen falsch klassifizierten Personen.

: Gesund
: Krank

Menschen

falsch klassifizierte Männer
falsch klassifizierte Menschen
falsch klassifizierte Frauen

Wie viele Menschen hat Ihre Gerade falsch klassifiziert? Es gibt keine Gerade, die eine perfekte Trennung ermöglicht. Wenn bei Ihnen 11 Menschen auf der falschen Seite waren, haben Sie es gut gemacht!

Bisher waren wir geschlechtsblind. Nun schauen wir hin, welches Geschlecht die Personen haben. Fällt Ihnen etwas auf?

Genau: Die nicht erfassten Risikoträger sind alle Frauen, die falsch positiv diagnostizierten alle Männer! Wie kann das sein?

Die Antwort: Die Hormone haben bei Frauen andere Auswirkungen als bei Männern. Im nächsten Schritt können Sie die Linie jeweils für Männer und für Frauen separat ziehen. Mal sehen, ob das besser klappt.

Haben Sie es geschafft, die Linien sauber zu ziehen? Das ist tatsächlich möglich. Die Linie für Männer verläuft höher als die von Frauen, weil die Hormone bei Männern anders zusammenwirken als bei Frauen. Das muss bei der Diagnose und gegebenenfalls auch bei der Therapie berücksichtigt werden.

Die getrennte Betrachtung von Männern und Frauen hat also nicht nur eine neue Erkenntnis gebracht, sondern kann auch zu einer faireren (das heißt hier: auf die Person abgestimmten) Behandlung geführt.

Die Beispiele zeigen, dass es extrem schwierig ist, gerechte Entscheidungen zu treffen, selbst wenn man die besten Absichten hat. Was ist fairer – der Mensch, der seine Entscheidungen auf Grund von Erfahrung, allerdings auch von Vorurteilen und subjektiven Emotionen trifft? Oder der Algorithmus, der scheinbar objektiv ist, aber allerlei eingebaute Ungerechtigkeit aufweisen kann? Wie wir gesehen haben, ist es manchmal mathematisch unmöglich, unterschiedliche Fairness-Vorstellungen miteinander zu vereinbaren. Und so muss man von Fall zu Fall definieren, was man in der jeweiligen Situation als fair empfindet. Und das ist eine Frage, die uns keine Maschine abnehmen kann.

Dieser Artikel wurde im MIP.Labor entwickelt. Das MIP.labor ist eine Ideenwerkstatt für Wissenschaftsjournalismus, angesiedelt an der Freien Universität Berlin und gefördert von der Klaus Tschira Stiftung. Stipendiatinnen und Stipendiaten entwickeln neue Medienformate zu Themen aus Mathematik, Informatik und Physik.