Auswirkungen von Fehlbestimmungen auf die Datenqualität

Bislang wurden auf naturgucker.de über 13,5 Millionen Naturbeobachtungen aus aller Welt gemeldet (Stand: Februar 2022). Als Betreiber dieses Netzwerkes für Naturbeobachtungen sind wir uns sicher: Diese Daten sind nicht allesamt "korrekt" im landläufigen Sinne. Das heißt, es liegen mit Sicherheit Beobachtungsmeldungen vor, die auf Fehlbestimmungen basieren.

Obwohl uns dies bewusst ist, gibt es auf naturgucker.de keine übergeordnete Instanz, die sämtliche Daten auf Plausibilität prüft. Vielmehr setzen wir auf ein mehrstufiges Hinweissystem, mit dem wir unsere Aktiven aber nicht bevormunden möchten. Bereits beim Eintragen der Beobachtungen werden dem Nutzer systemseitig erzeugte Fachhinweise angezeigt, wenn bestimmte Details ungewöhnlich erscheinen. Diese Fachhinweise enthalten jedoch keine verbindlichen Handlungsanweisungen, sondern lediglich Vorschläge für das weitere Vorgehen.

Außerdem kann jeder registrierte und angemeldete Nutzer sowie jedes unserer Fachbeiratsmitglieder Beobachtungen kommentieren. Wer möchte, kann so unter anderem beim Bestimmen helfen oder Zweifel an der Richtigkeit von Bestimmungen und somit Beobachtungen äußern. Diese Kommentare sind öffentlich und somit für jeden sichtbar; sogar nicht registrierte Betrachter der Seite können sie sehen. Hinsichtlich der Kommentare bleibt es dem Beobachter selbst überlassen, wie er mit eventuell darin gegebenen Hinweisen umgeht.

Diese Maßnahmen zur Qualitätssicherung mögen auf den ersten Blick zu weich wirken. Doch unserer Auffassung nach sind sie nicht nur ausreichend, sondern hinsichtlich der Wahrung der Datenintegrität der einzige richtige Weg. Denn würden offizielle Prüfer eingreifen und Änderungen an den Daten vornehmen, könnten deren Plausibilisierungsversuche zu Datenverfälschungen oder gar -verlusten führen, falls vermeintlich "falsche" Beobachtungen gelöscht werden würden. Weshalb Plausibilisierungen mit dieser potenziellen Gefahr der Datenmanipulation einhergehen, erläutern wir ausführlich in einem separaten Beitrag.

Im Folgenden möchten wir darlegen, was nicht plausible Beobachtungen eigentlich für die Datenqualität bedeuten können. Wir bezeichnen sie ganz bewusst als nicht plausibel und nicht als falsch. Unserer Ansicht nach gibt es im Hinblick auf Naturbeobachtungen kein "falsch" und "richtig", sondern lediglich ein "plausibel" oder "nicht plausibel" in Bezug auf die Glaubwürdigkeit. Denn Naturbeobachtungen sind keine naturwissenschaftlichen Messwerte, sondern letztlich nichts anderes als Zeugenaussagen eines Ereignisses in der Natur.

Tücken der Bewertung der Datenqualität

Eine Analyse der naturgucker.de-Daten für Rheinland-Pfalz durch den NABU Rheinland-Pfalz hat ergeben, dass 98 % der Beobachtungen den Prüfern plausibel erschienen. Lediglich 2 % der Daten wurden demnach als fragwürdig erachtet.

Dabei gilt es zu beachten, dass eine als nicht plausibel erscheinende Beobachtung keineswegs auf einer Fehlbestimmung basieren muss. Sie kann genauso gut eine ungewöhnliche Beobachtung sein, die auf einer korrekten Bestimmung beruht. Umgekehrt können als plausibel geltende Beobachtungen ihrerseits durchaus auf Fehlbestimmungen, die dem Plausibilisierer nicht aufgefallen sind, zurückzuführen sein. Nur sind sie eben niemandem "verdächtig" vorgekommen, weil sie nicht ungewöhnlich zu sein scheinen. Fünf in einem städtischen Garten gesichtete vermeintliche Haussperlinge würde kaum jemand anzweifeln, auch wenn einer davon womöglich eine Heckenbraunelle war. Dagegen würden fünf aus einem in der Stadt gelegenen Garten gemeldete Rohrdommeln hingegen wahrscheinlich Zweifel aufkommen lassen.

Das bedeutet: Auch den als plausibel eingestuften Beobachtungen haftet somit ein potenzieller Fehler unbekannter Größe an, was bei der Bewertung der Datenqualität grundsätzlich zu bedenken ist. Außerdem gilt dies für jedwede Datensätze, angefangen bei denen von naturgucker.de bis hin zu solchen, die von Naturbeobachtungs-Plattformen stammen, auf denen ein streng reglementiertes Prüfverfahren praktiziert wird.

Unser Fazit daraus ist deshalb, dass Datenprüfungen durch übergeordnete Instanzen niemals vor allen Bestimmungsfehlern schützen können. Gleichzeitig können sie ihrerseits sehr wohl die Ursache für eine Manipulationen von Originaldatensätzen sein.

Unterlaufen Laien besonders häufig Bestimmungsfehler?

Wie "sauber" große Datensätze sein können, die im Rahmen eines Bürgerwissenschaftler-Projekts wie naturgucker.de überwiegend von Nicht-Fachleuten zusammengetragen wurden, belegt beispielsweise eine Analyse der auf naturgucker.de gemeldeten Libellenbeobachtungen.

Dr. Jürgen Ott ist einer der Autoren der Roten Liste der Libellen mit dem Stand von 2012. Er wollte in Erfahrung bringen, inwiefern sich die aus den auf naturgucker.de gemeldeten Libellenbeobachtungen gewonnenen Datenkenngrößen mit dem Rote-Liste-Status der einzelnen Arten decken. Sein Ergebnis: Die mAI-Werte der Libellenarten auf naturgucker.de bilden die aktuelle Rote Liste für Deutschland nicht nur exakt ab, sondern zeigen vielmehr noch genauer als diese Trends in der Bestandsentwicklung auf. Dies kann in Dr. Otts Publikation nachgelesen werden.

Insbesondere von den Libellen wissen die Netzwerkbetreiber von naturgucker.de, dass diese Artengruppe von vielen Naturinteressierten als "schwierig" erachtet wird. In den beiden arten|pisa-Untersuchungen aus den Jahren 2017 und 2019 gehörten die abgefragten Libellenarten zu denjenigen Spezies im Untersuchungsfeld, die am wenigsten bekannt waren oder besonders häufig verwechselt oder falsch benannt wurden.

Dass die aus den Libellenbeobachtungsdaten auf naturgucker.de abgeleiteten Datenkenngrößen trotzdem so exakt mit der Roten Liste übereinstimmen, legt eine Vermutung nahe: Obwohl die Libellen als schwierig und verwechslungsträchtig gelten, scheint das Gros der Menschen, die auf naturgucker.de Beobachtungen dieser Tiere melden, plausible Daten zu liefern. Würden ihnen in hohem Maße Bestimmungsfehler unterlaufen, müsste sich dies in den Datenkenngrößen widerspiegeln. Dann wäre zu erwarten, dass diese keine vergleichbar große Übereinstimmung mit dem Rote-Liste-Status der jeweiligen Libellenarten zeigen sollten.

Im Umkehrschluss bedeutet dies: Obwohl auf naturgucker.de zahlreiche Laien Naturbeobachtungen melden und diese nicht von einer übergeordneten Instanz plausibilisiert werden, sind die durch Dr. Ott analysierten Daten für die Libellen plausibel. Dies ließe sich dadurch erklären, dass die Laien vor allem Beobachtungen von Arten melden, von denen sie sicher sind, dass sie sie erkennen. Oder aber es könnte ebenso bedeuten, dass viele der Laien über einen gehobenen Kenntnisstand in der als schwierig geltenden Artengruppe verfügen. Dies unterstreicht, von welch hoher Qualität Naturbeobachtungsdaten aus Citizen-Science-Projekten sein können – und das im Falle von naturgucker.de ganz ohne übergeordnete Plausibilisierungsinstanz.

Doch zurück zu den Libellen. Trotz alledem ist davon auszugehen, dass es auch unter den Libellenbeobachtungen auf naturgucker.de solche gibt, die auf Fehlbestimmungen basieren. In der großen Masse der Daten sind diese allem Anschein nach wenigen Fälle aber nicht von Belang.

Die Masse ist entscheidend

Grundsätzlich gilt, dass je größer ein Datensatz ist und je mehr Menschen ihn zusammengetragen haben, unserer Erfahrung nach die Wahrscheinlichkeit für gehäufte Fehlbestimmungen umso geringer ausfallen dürfte. Überdies sind einzelne Fehlbestimmungen innerhalb eines sehr großen Datensatzes statistisch in aller Regel kaum bis nicht relevant. Diese einzelnen Ausreißer schaden dem Gesamtergebnis normalerweise nicht.

Ein Beispiel: Wenn etwa unter 1.000 Beobachtungen von Singdrosseln drei sind, bei denen es die Beobachter eigentlich mit Misteldrosseln zu tun hatten, ist das unkritisch. Der Anteil der Fehlbestimmungen läge dann bei lediglich 0,3 %.

Problematisch können Fehlbestimmungen allerdings dann werden, wenn sie sich auf seltene oder selten beobachtete und gemeldete Arten beziehen und für diese aus Beobachtungsdaten Verbreitungskarten und Populationsanalysen abgeleitet werden sollen. Unserer Erfahrung nach sind es aber gerade diese Fälle, die der Beobachtergemeinschaft und den Fachbeiräten auf naturgucker.de umgehend auffallen. Würde jemand eigentlich Mäusebussarde sehen und diese fälschlicherweise wiederholt als überfliegende Gänsegeier melden, die in Deutschland derzeit (noch?) echte Seltenheiten darstellen, würde dies mit Sicherheit sehr bald Fragen innerhalb unserer Nutzergemeinschaft aufwerfen.

Die potenzielle Gefahr, dass bei Allerweltsarten Fehlbestimmungen auftreten und zu unentdeckt bleibenden fehlerhaften Meldungen führen, ist unserer Auffassung nach dagegen umso größer. Angesichts der immensen Zahlen auf naturgucker.de gemeldeter Beobachtungen von Saatkrähen würde es wohl nicht auffallen, wenn eine Verwechslung mit einer anderen dunklen Rabenvogelart wie etwa der Rabenkrähe erfolgt sein könnte.

Es sei denn, der Beobachtungsort würde einen Hinweis liefern: Würde zum Beispiel aus den Höhenlagen des Nationalparks Berchtesgaden ein Beobachter Saatkrähen melden, dann läge die Vermutung nahe, dass hier wahrscheinlich Alpendohlen nicht richtig erkannt worden sind.

Von solchen Spitzfindigkeiten einmal abgesehen gilt aber ganz generell: Je nachdem, welcher Analyse die Daten unterzogen werden, sind bei großen Datensätzen solche vereinzelten Fehlbestimmungen auch und gerade bei Allerweltsarten aus statistischer Sicht in aller Regel eher unschädlich.

Verwechslungsgefahren und ihr tatsächliches Risiko für den Datenbestand

Als Betreibern von naturgucker.de sind wir uns der Tatsache bewusst, dass es eine ganze Reihe sehr schwieriger Arten gibt, die zum Beispiel nur zu bestimmen sind, indem die Genitalien der Tiere unter einem Mikroskop betrachtet werden. Exemplarisch seien hier diverse Käferarten sowie einige Schmetterlinge genannt.

Grundsätzlich lässt sich feststellen, dass viele Insektenarten tendenziell schwierig zu bestimmen sind. Unter anderem aus diesem Grunde bieten wir auf naturgucker.de die Möglichkeit, Beobachtungen "artungenau" zu melden, also beispielsweise auf Gattungsebene. Wer nicht weiß, welchen Weißling er gesehen hat, kann einfach Beobachtungen für "Weißling (unbestimmt)" melden. Von dieser Möglichkeit machen sehr viele unserer Nutzer Gebrauch – wahrscheinlich wohl wissend, dass ihnen die nötigen Fachkenntnisse für eine artgenaue Identifikation der Arten fehlen oder diese nur mithilfe weiterreichender Untersuchungen möglich ist.

Anstatt also drauflos zu raten, ob sie es eher mit einem Großen oder einem Kleinen Kohlweißling beziehungsweise eventuell sogar mit einem Grünader-Weißling zu tun hatten und möglicherweise dadurch fehlerhafte Beobachtungen zu generieren, greifen die Melder lieber auf die ungenaue "Art" zurück – und die Datenbestände der "genauen" Arten bleiben dadurch sauberer.

Bei Verwechslungsarten, die vergleichsweise häufig oder flächendeckend vorkommen, erfolgen die Fehlbestimmungen erfahrungsgemäß in beide Richtungen. Sie dürften sich somit zu einem bestimmten Grad gewissermaßen gegenseitig aufheben. Wenn also beispielsweise von 300 Beobachtungen des Zilpzalps in Wahrheit in 20 Fällen ein Fitis gesehen wurde, dann ist die Wahrscheinlichkeit dafür hoch, dass beim Fitis in ähnlichem Maße Verwechslungen mit dem Zilpzalp vorliegen.

Anders verhält es sich hingegen meist bei zwei Verwechslungsarten, von denen eine häufig und weit verbreitet und die andere seltener und auf bestimmte Lebensräume spezialisiert ist. Stellvertretend für ein solches Artenpaar seien hier die praktisch allgegenwärtige Steinhummel und die sehr viel seltenere und auf bestimmte Lebensräume spezialisierte Distelhummel genannt. Letztere besiedelt im Flachland Moore und Heiden und kommt im Bergland in Höhenlagen zwischen rund 1.100 und 2.600 m vor.

Viele naturbeobachtende Laien kennen die Distelhummel nicht und melden sie allein schon aus diesem Grunde nicht. Die Wahrscheinlichkeit dafür, dass ein Beobachter in seinem städtischen Garten oder bei einem Spaziergang durch ein Naturschutzgebiet, das kein Moor und keine Heide ist, eine Distelhummel fälschlicherweise als Steinhummel identifiziert, dürfte relativ gering sein. Umgekehrt können Datennutzer die Beobachtungsmeldungen der Distelhummel im individuellen Fall intensiv auf Plausibilität prüfen, indem sie die Sichtung mit dem Beobachtungsort abgleichen und hieraus für sich Schlüsse ziehen, für wie wahrscheinlich sie ein Vorkommen der Art in dem entsprechenden Habitat halten.