BioP II - eine unseriöse Studie?

Die sonderbare Welt der Öffentlich-Rechtlichen

Manfred Bromba

Erstveröffentlichung: 2009-04-08 • Letzte Änderung: 2011-10-29
Permalink: http://www.bromba.com/knowhow/3SAT_BioPII.htm

Wenn man Studien stark vereinfachend in gute und schlechte einteilt, gibt es vier Möglichkeiten: 
(1) eine gute Studie wird als gut beurteilt, 
(2) eine schlechte Studie wird als schlecht beurteilt, 
(3) eine schlechte Studie wird als gut beurteilt und 
(4) eine gute Studie wird als schlecht beurteilt. 
Offensichtlich entsprechen die Fälle 1 und 2 einer korrekten Beurteilung, während die Fälle 3 und 4 als Fehlurteile einzustufen sind. In der Biometrie kennt man die Fehlerfälle 3 und 4 bzw. deren Häufigkeit im übertragenden Sinn als False Match Rate und False Non-Match Rate. Jeder seriöse Biometriker kennt diese Fehlerfälle und sorgt dafür, dass die Betroffenen insbesondere in Fehlerfall 4 nicht "unschuldig" darunter zu leiden haben. Leider sieht das ganz anders aus, wenn öffentlich-rechtliche Rundfunkanstalten Studien beurteilen (lassen).

Am 23.8.2005 wurde vom BSI (Bundesamt für Sicherheit in der Informationstechnik) die Studie "Untersuchung der Leistungsfähigkeit von biometrischen Verifikationssystemen - BioP II" veröffentlicht und steht seitdem jedermann zum Download zur Verfügung [2]. In dieser Studie geht es um die Planung und Auswertung eines biometrischen Feldtests am Flughafen Frankfurt mit dem Ziel, verschiedene biometrische Charakteristika (Gesicht, Fingermuster, Irismuster), die für den Einsatz in staatlichen Personaldokumenten diskutiert wurden, in Bezug auf verschiedene Kriterien zu vergleichen. Am 8. März 2009 fand diese Untersuchung schließlich Eingang in die 3SAT-Sendung "neues", und zwar als abschreckendes Beispiel für die "Aufhübschung" von Studien [1] unter dem Titel:
"Technologie-Studien auf dem Prüfstand -  Die sonderbare Welt der Studien"
Um es gleich vorwegzunehmen: Nicht die genannte Studie erweist sich als unseriös, vielmehr geben die Methoden zu denken, mit denen öffentlich-rechtliche Fernsehanstalten wie 3SAT es schaffen, sich instrumentalisieren zu lassen und dabei die Wahrheit auf den Kopf zu stellen. Dabei geht es mir weniger darum, die Studie zu rechtfertigen, vielmehr soll aufgezeigt werden, wie Meinungsmanipulation durch gebührenfinanzierte Medien aussehen kann, ohne dass dies dem fachlich nicht "vorbelasteten" Zuschauer auffällt. Dabei muss nicht einmal böse Absicht im Spiel gewesen sein, es reicht, wenn elementare journalistische Grundsätze missachtet werden. Hätte man z.B. die Verfasser der Studie mit den Vorwürfen konfrontiert, wäre dem 3SAT diese Peinlichkeit sicher erspart geblieben! 
Auf der Suche nach einer sachlichen Erklärung für diesen Fehlgriff fällt zunächst einmal folgende Behauptung auf:

Zitat 3SAT:

Die Studie sollte als Grundlage zur Einführung des elektronischen Reisepasses vor vier Jahren dienen - allerdings wurde der ePass letztlich schon vor Veröffentlichung der Ergebnisse auf den Weg gebracht.
Möglicherweise ist 3SAT und/oder der Chaos Computer Club (CCC) davon ausgegangen, dass die Studie zur Entscheidungsfindung über die Einführung biometrischer Charakteristika in Personaldokumenten gedacht war. Möglicherweise war dies ursprünglich tatsächlich einmal geplant. Die Studie selbst sieht jedoch eindeutig die von ICAO empfohlene Einführung biometrischer Merkmale sowie die nachfolgenden politischen Beschlüsse als gegeben an. Die Erkenntnis, diese Studie sollte als Grundlage für die Einführung des elektronischen Reisepasses dienen, lässt sich jedenfalls nicht aus der Studie selbst gewinnen und ist damit äußerst fragwürdig.

Zitat BioP II:

Am 01.06.2005 hat Bundesinnenminister Schily die Einführung neuer biometrieunterstützter Reisepässe - kurz: ePässe - in Deutschland vorgestellt. Damit führt Deutschland als einer der ersten EU-Staaten den neuen "EU-Reisepass" ein. Dieser neue ePass wird ab dem 01.11.2005 ein digitales Lichtbild enthalten, ab März 2007 zusätzlich zwei Fingerabdruckbilder.

Vor diesem Hintergrund war es Ziel der Studie BioP II, die Leistungsfähigkeit von derzeit auf dem Markt verfügbaren biometrischen Verifikationssystemen der Gesichts-, Fingerabdruck- und Iriserkennung für eine Verwendung im Zusammenhang mit Personaldokumenten zu untersuchen.

Natürlich kann man jede Studie verreißen, wenn ihre Zielsetzung nicht mit Methodik und Interpretation zusammenpasst. Genau das kann man der BioP II aber nicht vorwerfen.

Zitat 3SAT:

Das Studiendesign - bemerkenswert. Das befand zumindest der Chaos Computer Club Berlin. Seine Sprecherin, Constanze Kurz, ist selbst Wissenschaftlerin an der Humboldt Universität in Berlin. Zunächst fiel den IT-Experten auf, dass die Altersstruktur der Testpersonen im Vergleich zur Gesamtbevölkerung Deutschlands jünger war.
Hier wird so getan, als hätte jemand überraschend einen Fehler in der Studie entdeckt. Wenn man die Seite 51 der Studie liest, stellt man jedoch fest, dass genau dieses Thema in der Studie ausreichend behandelt wurde! Beispiel:

Zitat BioP II:

Hinsichtlich des Merkmals Geschlecht zeigt das statistische Testverfahren eindeutig, dass die Struktur der Testpopulation nicht mit der Struktur der Gesamtbevölkerung übereinstimmt. Dies wird schon daran deutlich, dass das Verhältnis zwischen männlichen und weiblichen Personen in der Testgruppe umgekehrt zur Gesamtpopulation ist.
An dieser Stelle kann man der Studie also keinerlei Vorwürfe machen. Dies hält die Kritikerin dieser Studie, Konstanze Kurz, aber nicht davon ab, zu behaupten:

Zitat 3SAT:

"Hier ist natürlich davon auszugehen, dass das Ergebnis der Studie dadurch geschönt wurde, denn wir wissen, dass Frauen signifikant schlechter erkannt werden, und die tauchen unterrepräsentiert in der Studie auf."
Spätestens ab hier fällt es schwer, noch an eine wissenschaftliche Auseinandersetzung zu glauben. Vielmehr fragt man sich in Anspielung auf die 3SAT-Texteinleitung [1], wonach "die Ergebnisse nicht unwesentlich davon abhängen, wer die Studie in Auftrag gegeben hat", ob sich diese Aussage nicht vielleicht auch auf die Auftraggeber von Studienkritiken beziehen könnte. Allerdings sieht es in diesem Fall doch eher so aus, als wäre 3SAT dem von mir sonst hochgeschätzten CCC auf den Leim gegangen.
Fragwürdig aber ist auch die im 3SAT-Beitrag unbelegte Behauptung, Frauen würden signifikant schlechter erkannt. Geheimwissenschaft, oder gibt es dafür Beweise? Aber selbst, wenn dies so sein sollte, die Studie verliert dadurch nicht das geringste an Wert. Wenn ich mir als "Biometriegegner" allerdings ein anderes Ergebnis erhofft habe, mag das ganz anders aussehen.

Zitat 3SAT:

"Die Gesamtrepräsentativität ist überhaupt nicht gegeben, und damit ist auch die Aussagekraft der Studie nicht hinreichend."
Zitat BioP II:
Aufgrund der Zusammensetzung der Gesamtbevölkerung hätten
weitaus mehr Personen in diese Altersintervalle fallen müssen. Auch bei Einschränkung des Strukturvergleichs auf die Kernbereiche (20-59 Jahre) ist eine Abweichung zwischen der Testpopulation und der Gesamtbevölkerung zu verzeichnen.
Dazu ist nur lapidar festzustellen: Eine Studie wird nicht dadurch schlecht, dass sie selbst ihre Grenzen aufzeigt. Im Gegenteil, genau das zeichnet (neben anderen Merkmalen) ihre Seriosität aus! Wenn man von Gesamtrepräsentativität spricht (was auch immer das sein mag), sollte man zumindest die Frage beantworten können: Repräsentativ für was? Repräsentativ für die in der Studie angegebenen oder die ihr unterstellten Ziele? Jedenfalls ist die Repräsentativität für die Ergebnisse der Studie, die sich in Verbesserungsvorschlägen niederschlägt, kaum von Belang. Die Aussagekraft der Studie bleibt gewahrt, wenn man im Auge behält, was die Studie aussagen will!

Zitat 3SAT:

Bedenklich findet der CCC auch, dass die so genannte Lebenderkennung an den Geräten - mit Ausnahme der Iriserkennung - während des Feldtests nicht konfigurierbar oder aktiviert war. Die Lebenderkennung gilt als wichtige Sicherheitsfunktion bei biometrischen Erkennungssystemen. Durch die Deaktivierung konnten die Systeme also nicht zwischen lebenden Organismen und Fälschungen unterscheiden. 
Offenbar ist den Spezialisten des CCC nicht bekannt, dass heutige Fälschungserkennungssysteme zwar die Falschrückweisungsrate (FRR) deutlich erhöhen, gegen geeignete Kopien aber keine ernsthafte Hürde darstellen - noch darstellen müssen. Es gibt also keinen vernünftigen Grund, eine nicht vorhandene oder möglicherweise nicht benötigte Funktion zu aktivieren, um das Ergebnis künstlich schlecht aussehen zu lassen. (Für den Vergleich ist es aber natürlich wichtig, alle Systeme unter gleichartigen Voraussetzungen zu testen, soweit das möglich ist!)

Zitat 3SAT:

Warum die Lebenderkennungsfunktionen für die Fingerabdrucksysteme nicht konfigurierbar waren, geht aus der Studie nicht hervor. Für Kurz dennoch ein Indiz, dass die Ergebnisse der Studie "aufgehübscht" wurden.
Hierzu sollte man wissen, dass der CCC sich einiges an Knowhow zur Vervielfältigung von Fingerabdruckplagiaten erarbeitet hat und darauf auch eindrücklich bei jeder Gelegenheit hinweist [3]. Leider war genau dieses Thema hier nicht gefragt, wie man der Studie selbst entnehmen kann. Mein Tipp an 3SAT: Bevor man von "aufgehübschten Studien" sprechen lässt, sollte man vielleicht einmal in Betracht ziehen, dass auch Wissenschaftler eine politische Meinung haben. Mit zweifelhaften Begründungen eingeführte Zwangsbiometrie hat nicht nur Freunde, das sollte sich ja inzwischen herumgesprochen haben! Und manchmal sind auch Wissenschaftler nur Menschen. Fazit: Die Fehlinterpretation einer Studie wird man in der Regel eher dem fachlich kompetenten Interpreter als der Studie anlasten müssen. Und auch Journalisten müssen nicht kopflos in ihr Unglück laufen, wenn sie ihr Handwerk nicht nur gelernt haben, sondern es auch konsequent anwenden.
[1] "3SAT"; "Technologie-Studien auf dem Prüfstand - Die sonderbare Welt der Studien"; 08. März 2009; http://www.3sat.de/neues/sendungen/magazin/131740/index.html
[2] "BSI" "BioP II - Untersuchung der Leistungsfähigkeit von biometrischen Verifikationssystemen 
Version 2.0; 2005-08-23 ": https://www.bsi.bund.de/ContentBSI/Publikationen/Studien/biop/BioPII.html
[3] "Starbug"; "Wie können Fingerabdrücke nachgebildet werden?"; 09. Oktober 2004; http://www.ccc.de/de/campaigns/aktivitaeten_biometrie/fingerabdruck_kopieren

Abschließende Bemerkung: 3SAT wurde am 16. März 2009 um eine Stellungnahme gebeten. Diese ist bis zum 8. April 2009 nicht erfolgt.

Änderungen

2011-10-29: Referenz-Links [2] und [3] aktualisiert, Permalink hinzugefügt