Gefährliche Software

In Schweizer Gefängnissen entscheiden Algorithmen und Prognosesoftware über die Gefährlichkeit von Gefangenen. Die Programme gelten als objektiv und unvoreingenommen. Wissenschaftlich überprüft wird das kaum.

von Florian Wüstholz (erschienen in Surprise #506)

Als Andrea für neun Monate in einem Gefängnis im Kanton Zürich landet, wird er, wie seine Mithäftlinge, getestet: Sind weitere Abklärungen nötig, um seine Gefährlichkeit für andere einzuschätzen? Ein flächendeckend eingesetzter Algorithmus rechnet und spuckt den Buchstaben A aus. Der fiktive Andrea hat Glück. Denn der Buchstabe bedeutet, dass kein weiterer Abklärungsbedarf besteht. Die «validierten, statistischen Risikofaktoren» sind nicht erfüllt. Kommt beim sogenannten FastScreening-Tool (FaST) ein B oder gar ein C heraus, führen die Behörden mit der betroffenen Person weitere Tests und Befragungen durch. Damit soll herausgefunden werden, ob nach der Freilassung ein Risiko für weitere schwere Straftaten besteht. Die Bewährungsund Vollzugsdienste des Kantons Zürich bewerben diesen Prozess als «objektiv, einfach und schnell». Für die Betroffenen entscheidet er über Freiheit oder Gefangenschaft.

Die anschliessenden Tests sollen Fragen beantworten wie: Welche Gefangenen sind gefährlich? Wer muss sich einer Therapie unterziehen? Wer könnte nach der Freilassung rückfällig werden und vielleicht eine noch schwerwiegendere Tat begehen? Alle diese Fragen sind Teil des «risikoorientierten Sanktionenvollzugs» (ROS) – ein Modell, das seit 2018 fast in der gesamten Deutschschweiz zum Einsatz kommt. Dabei nutzen die Behörden unterschiedliche Softwareprogramme, um Prognosen zu erstellen.

Ein wichtiges solches Programm ist Fotres, das «forensisch operationalisierte Therapie-Risiko-Evaluations-System». Es wurde 2005 vom forensischen Psychiater Frank Urbaniok mitentwickelt und wird bis heute von seiner Privatfirma vertrieben. Die Software errechnet auf der Grundlage von Akten und den Aussagen des*der Gefangenen gegenüber Gutachterinnen, Therapeuten oder Bewährungshelferinnen einen Punktewert, der seine*ihre Gefährlichkeit wiedergeben soll. Auf der informationsarmen Website verspricht Fotres, das Resultat würde «risikorelevante Persönlichkeitsmerkmale, Verhaltensweisen und Einstellungen» abbilden und könne herausfinden, ob eine Therapie die Risikobereitschaft beeinflussen könne. Zudem würden sich diese Therapien mit Fotres dokumentieren und evaluieren lassen.

Im Gefängnis kommt ebenfalls die «revidierte Psychopathie-Checkliste» (PCL-R) zum Einsatz. Durch sie werden Merkmale wie «Promiskuität», «oberflächliche Gefühle» oder «viele kurzzeitige ehe(ähn)liche Beziehungen» erfasst, mit Zahlenwerten versehen und gewichtet. Wer die Schwelle von 25 Punkten überschreitet, kann kaum mit Straflockerungen oder einer Freilassung rechnen. Ein Verfahren, das scharf kritisiert wird. «Je nachdem, wer den Betroffenen testet, kann es gut und gern bis zu sechs Punkte Unterschied machen», sagte Marianne Heer, Luzerner Oberrichterin und Strafrechtsprofessorin, 2017 in einem Interview mit der Wochenzeitung WOZ. Während bei der einen Psychiaterin 22 Punkte herauskommen und für den Gefangenen damit die Freiheit lockt, sind es bei einer anderen 28 Punkte und er wird womöglich für immer weggesperrt.

Heer ist nicht die einzige Kritikerin des Vollzugssystems, das sich auf Algorithmen und Prognosesoftware stützt. Auch der Zürcher Psychiater Mario Gmür sagte gegenüber der Wochenzeitung Die Zeit, dass Menschen dadurch nicht mehr bloss für ihre Taten bestraft würden, sondern für ihre «Marotten und Vorlieben». Wer geschiedene Eltern, Freude an Sex oder eine Klasse wiederholt hat, kriegt bei Fotres Minuspunkte.

Denn: Die Prognoseinstrumente wollen die Wahrscheinlichkeit eines Rückfalls mittels Informationen aus der Vergangenheit vorhersagen – und untergraben damit Strafmodelle, die «an den Besserungswillen des Täters appellieren», wie Gmür in der Schweizerischen Ärztezeitung schreibt. Tatsächlich glaubt Gmür, dass Fotres und andere Instrumente «regelmässig missbraucht würden, indem sie im psychiatrischen Gutachten als Testverfahren deklariert und auf den Einzelfall angewendet werden».

Ein «Bauchgefühl-Paradox»

Tatsächlich gibt es nur wenige Studien, welche die Aussagekraft von Fotres überprüft haben. 2011 kamen Forschende der Universität Ulm zum Schluss, dass «die Gefahr einer Pseudosicherheit» bestehe, weil die Ergebnisse je nach Person, welche die Software bedient, sehr unterschiedlich ausfallen können. Ein anderer Artikel aus demselben Jahr bestätigte dagegen die Validität der Software – verfasst wurde er von Mitarbeiter*innen von Firmengründer Urbaniok. Ein vernichtendes Fazit zieht eine 2020 in der Zeitschrift Forensische Psychiatrie, Psychologie, Kriminologie veröffentlichte Studie: Fotres wurde «bislang wenig und vor allem kaum unabhängig beforscht». Von einer breiten wissenschaftlichen Validierung könne «keine Rede sein». Ob Fotres wirklich nützt, könne entsprechend nicht nachgewiesen werden.

Jene, die täglich mit Fotres und Co. arbeiten, sehen das anders. Die Programme seien nachvollziehbar und transparent, weil die Gewichtung der unterschiedlichen Kriterien bekannt sei. Das fand Monika Simmler, Assistenzprofessorin an der Hochschule St. Gallen und SP-Kantonsrätin, 2020 in einer systematischen Studie über den Umgang mit Algorithmen im Justizsystem heraus. Befürworter*innen sagen, Algorithmen hätten gegenüber Menschen Vorteile. Deren klinische Urteile liessen sich nur «schwer widerlegen». Zudem könnten Algorithmen «die Willkür menschlicher Entscheide eliminieren», da sie «transparent und nach den Regeln der Logik entscheiden, anstelle sich von subjektiven Wahrnehmungen beeinflussen zu lassen».

In der Schweiz richten Algorithmen noch nicht über Freiheit oder Gefangenschaft; noch immer entscheiden am Ende Menschen. Doch Simmler und ihre Mitautor*innen beschreiben ein «Bauchgefühl-Paradox»: «Auf die Frage hin, wie gehandelt würde, wenn der Algorithmus ein anderes Resultat liefere als das persönliche Empfinden, geben fast alle an, auf ihr Bauchgefühl zu vertrauen.» Stimmt der Algorithmus hingegen mit der eigenen Wahrnehmung überein, verleiht er dem gefällten Urteil eine «unabhängige» und «objektive» Legitimation.

Die Vorstellung ist, dass vermeintlich objektive und standardisierte Programme subjektiven und individuellen Einschätzungen von Fachleuten überlegen sind. Die Realität ist eine andere: Die Prognoseprogramme sind wissenschaftlich nicht unabhängig überprüft. Die Resultate variieren je nach Psychiater*in, welche die Software bedient. Und am Ende entscheidet meist doch das Bauchgefühl. Das zeigt auch das Beispiel des in Kanada entwickelten VRAG, mit dem das Risiko für Gewalttaten eingeschätzt werden soll. Hier wird etwa nach «Ärger in der Schule» gefragt, wobei zwischen «keiner», «wenig» und «viel» entschieden werden kann. Ob die Eltern im Kindesalter anwesend waren, lässt sich mit «ja» oder «nein» beantworten. Aber wie lässt sich objektiv entscheiden, ob jemand «viel» oder «wenig» Ärger in der Schule hatte? Und ab wann gelten die Eltern im Kindesalter als «abwesend»? So schnell fliessen subjektive Einschätzungen in die Algorithmen ein.

Tausende Tests pro Jahr

Es ist kein Wunder, dass das Schweizer Bundesgericht bereits 2015 Fotres, VRAG und PCL-R eine deutliche Absage erteilte. Standardisierte Prognoseinstrumente seien «für sich allein nicht geeignet, eine fundierte individuelle Gefährlichkeitsprognose tragfähig zu machen». Es brauche vielmehr eine «differenzierte Einzelfallanalyse». Dennoch werden die Programme in der Schweiz jährlich bei tausenden Gefangenen angewendet. Aktuelle und transparent kommunizierte Zahlen gibt es nicht. Das Fernsehen SRF zeigte jedoch, dass zwischen 2016 und 2018 in zwölf Deutschschweizer Kantonen über 4500 Menschen mit dem FaST-Algorithmus getestet wurden. Vier von zehn wurden in die Kategorie B oder C eingeteilt. All das gibt Angela Müller von der NGO AlgorithmWatch Schweiz zu denken. Nebst zweifelhaftem wissenschaftlichen Nutzen und mangelnder Transparenz zum Einsatz gibt es auch grundrechtliche Probleme. Müller sieht die Gefahr von Abschreckungseffekten: «Betroffene könnten aus Angst vor einer schlechteren Bewertung, die Lockerungen im Strafvollzug unwahrscheinlich machen würde, davon absehen, ihre Rechte wahrzunehmen.» Entsprechend führt AlgorithmWatch Schweiz ROS & Co. in ihrem neusten Bericht über die automatisierte Gesellschaft als Negativbeispiele auf.

Wer sich nicht von Algorithmen und Prognosesoftware durchleuchten und bewerten lassen will, gilt als uneinsichtig und widerspenstig. Wer wieder frei sein will, muss kooperieren.


Rassistische Software?

Nicht nur in der Schweiz entscheiden Algorithmen über Freiheit oder Gefangenschaft. In den USA schätzt die Software COMPAS seit einigen Jahren das Risiko für weitere Straftaten ein – und zwar oft bereits vor der Verurteilung, um zum Beispiel die Höhe der Kaution festzulegen. ProPublica, eine NGO für investigativen Journalismus, analysierte den dahintersteckenden Algorithmus 2017 und fand heraus, dass bei Schwarzen das Rückfallrisiko zu hoch eingeschätzt wird. Die Herstellerfirma bestreitet dies. In Katalonien nutzen Gefängnisse seit elf Jahren den Algorithmus RisCanvi bei der Entscheidung, ob Gefangene auf Bewährung freikommen. Zwar entscheiden am Ende immer noch Menschen, doch das Resultat stimmt sehr oft mit dem Vorschlag der Software überein. Nur eine Studie hat bisher untersucht, ob der nicht veröffentlichte Algorithmus überhaupt dazu taugt, das Rückfallrisiko richtig einzuschätzen. Dabei zeigte sich, dass bei vier von fünf Menschen fälschlicherweise ein Rückfall vorhergesagt wurde.