Die Grenze des Algorithmus

In den USA ziehen Richter einen Algorithmus zu Rate um über die Wahrscheinlichkeit eines Rückfalls bei Straftätern zu entscheiden. Das mutet nicht nur befremdlich an, eine Studie hat jetzt auch ergeben: Der Algorithmus ist nicht schlauer als menschliche Laienrichter. Die Software COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) benutzt einen Algorithmus, der 137 Merkmale in eine Berechnung darüber einbezieht, ob ein Straftäter rückfällig wird oder nicht. Diese Frage ist für die Richter bei der Abwägung über eine mögliche Bewährung entscheidend. Kritiker sehen zwei grundsätzliche Probleme bei dieser Praxis.

Erstens bezahlen die Gerichte und Gefängnisse dem Besitzer von COMPAS Geld für die Nutzung des Algorithmus. Zweitens ist dessen genaue Funktionsweise völlig intransparent. Immerhin wurden schon mehr als eine Million US-Bürger durch COMPAS beurteilt. Der SPIEGEL berichtete über zwei Forscher, die wissen wollten: Trifft eine Maschine auf Basis von 137 Merkmalen präzisere Prognosen als juristische Laien mit drei Informationen zum Fall?

Mensch gegen Maschine

Wie verlässlich kann so ein Algorithmus für die tatsächliche Praxis überhaupt sein? Zwei Informatiker des amerikanischen Dartmouth College untersuchten diese Frage, indem sie die Software gegen Laienrichter antreten ließen. Dazu rekrutierten sie 400 Teilnehmer ohne juristische Berufserfahrung und gaben ihnen als Informationen Geschlecht, Alter und kriminelle Vorgeschichte zu einem Fall. Die Aufgabe: schätzen Sie ein, ob diese Person innerhalb von zwei Jahren rückfällig geworden ist.

Mit einem spannenden Ergebnis: Die Laienrichter schätzten die Fälle zu 63% richtig ein, was an sich nicht sonderlich verwundert. Umso erstaunlicher ist aber, dass die COMPAS Trefferquote bei der Bewertung der Rückfallwahrscheinlichkeit auch nur bei etwa 65% liegt. Die Untersuchung ging sogar weiter: Nahmen die Wissenschaftler die Urteile von 20 Teilnehmern, die die gleichen Fälle bewertet hatten, kamen die menschlichen „Richter“ auf eine Trefferquote von 67%. In einem letzten Erhebungsschritt gaben die Forscher dem Algorithmus nur noch das Alter und die Anzahl der bisherigen Verurteilungen zur Bewertung eines möglichen Rückfalls. Das Ergebnis: Die Trefferquote war nahezu identisch, unabhängig davon ob, 137 oder zwei Bewertungsmerkmale verwendet wurden.

Dieser kleine Exkurs verdeutlicht nicht nur die potentiellen Gefahren von blindem Verlass auf Technologie, sondern unterstreicht auch zwei Kernaussagen unserer LegalTech-Experten: Der Trusted-Advisor, also der technologiekompetente Rechtsexperte wird in Zukunft immer wichtiger. Und: Maschinen sind nicht in der Lage, menschliches Urteilsvermögen zu ersetzen – jedenfalls noch nicht.