Einheit 3: Umgang mit (empirischen) Forschungsdaten

Datenrecherche

Wie finde ich zuverlässige Daten?

Die hier dargestellten Informationen stammen aus dem Zertifikatsprogramm "Data Literacy Jena". Dort könnt ihr euch bei Bedarf intensiver und strukturierter mit diesen Fragen auseinandersetzen.

Der Recherchezyklus

Das Ziel der Recherche ist es, Daten zu finden, die für die eigene Fragestellung nachnutzbar sind (es geht also um Sekundärdaten). Zunächst möchten wir dir hier den Recherchezyklus vorstellen. Durch Anklicken der entsprechenden Buttons mit den Ausrufezeichen erhältst du weitere Informationen zu dem jeweiligen Schritt.

Die Inhalte der folgenden interaktiven Übung basieren zu großen Teilen auf Material des Projekts Data EDUcation an der UDE der Universität Duisburg.



Datenquellen identifizieren

Die Auswahl passender Datenquellen ist ein entscheidender Schritt bei der Datenrecherche. Aber wie findet man eigentlich passende Datenquellen? In der folgenden Kurzübersicht haben wir verschiedene Rechercheansätze zusammengefasst.



 

In Bezug auf Daten scheinen Repositorien eine wichtige Rolle zu spielen. Aber was sind eigentlich Repositorien?

Im Bereich der Forschung versteht man unter einem Repositorium einen längerfristigen Speicherort für digitale Daten, über den mögliche Nutzer*innen auf die Daten zugreifen können (meist über ein Webportal). Diese können einen unterschiedlichen thematischen Fokus (z.B. Geodaten, historische Dokumente, genetische Daten) haben oder sich auf Daten bestimmter Institutionen (z.B. Digitale Bibliothek Thüringen) beziehen.

Aber auch außerhalb der Wissenschaft gibt es Webportale, die kostenpflichtigen oder -freien Zugang zu Datensätzen ermöglichen. Diese können beispielsweise von amtlichen Stellen, Unternehmen oder auch Markt- und Meinungsforschungsinstituten bereitgestellt werden. Im Rahmen der Open-Data-Strategie sollen auch Daten aus der Verwaltung und öffentlich geförderter Forschungsprojekte besser zugänglich gemacht werden, sofern diese nicht geschützt werden müssen (z.B. personenbezogene Daten).

Datenquellen beurteilen

Aber woher weiß ich, ob die gefundenen Daten bzw. die Datenquelle nutzbar und vertrauenswürdig ist?

Manche Datenquellen sind in Bezug auf ihre Vertrauenswürdigkeit leichter einzuschätzen als andere. So sind Daten von öffentlichen Institutionen wie Statistischen Landesämtern oder den Städten in der Regel zuverlässig. Bei anderen Anbietern von Daten kann es schwieriger sein, wobei es auch im privaten Sektor etablierte Anbieter gibt, die häufig als Quelle vertrauenswürdiger Daten genutzt werden (z.B. Statista). Schwierig wird es insbesondere, wenn die genaue Herkunft der Daten ungeklärt ist (z.B. unbekannte Quellen, Daten in Social Media Posts) bzw. die Quelle selbst ein spezifisches Interesse in Bezug auf die Aussagen in den Daten hat (z.B. Lobbygruppen).

Die Nutzbarkeit von Daten kann aus verschiedenen Perspektiven bewertet werden. Häufig werden Aspekte der Datenqualität herangezogen (dazu findest du mehr Informationen im Zertifikatsprogramm "Data Literacy Jena"). Da dies aber schon eine tiefere Auseinandersetzung mit den Daten voraussetzt und man ggf. unterschiedliche Datenquellen identifiziert hat, ist es praktisch, schon eine erste Auswahl anhand von wenigen Kriterien durchführen zu können. Dafür kann der sogenannte CRAP-Test (manchmal auch CRAAP) verwendet werden. Dieser wurde ursprünglich für die Bewertung von Informationsquellen herangezogen. Die angelegten Kriterien sind aber auch im Zusammenhang mit Datenquellen durchaus anwendbar und überlappen zum Teil mit den Anforderungen an die Datenqualität. Schauen wir uns dazu die Elemente der CRAP-Bewertung und damit verbundene Fragestellungen an.

 

C - Currency (Aktualität)

Wann wurden die Daten erzeugt bzw. auf welchen Zeitraum beziehen sie sich?

Passt der abgegbildete Zeitraum zu meiner Fragestellung?

Werden ggf. aktuellere Daten für meine Fragestellung benötigt?

Wurden die Daten aktualisiert?

 


R - Reliability/ Relevance (Zuverlässigkeit/ Relevanz)

Sind die Daten repräsentativ?

Widersprechen sie anderen verfügbaren Daten?

Sind die Daten passend für die Beantwortung meiner Fragestellung?

Erfüllen die Daten die Anforderungen für meine Fragestellung (z.B in Bezug auf die räumliche Auflösung, Umfang etc.)?


A - Authority/ Accuracy (Autorität/ Richtigkeit)

Von welcher Institution wurden die Daten erhoben?

Wer ist/ sind die Autoren bzw. die Datenerhebenden?

Sind diese Personen befähigt die entsprechenden Daten korrekt zu erheben?

Gibt es Kontrollmechanismen für die Überprüfung der Daten (z.B. Publikation in wissenschaftlichem Journal/ wissenschaftlichem Repositorium)?


P - Purpose (Zweck)

Zu welchem Zweck wurden die Daten erhoben? Könnten die Ziele der Datennutzung deren Vertrauenswürdigkeit beeinflussen?

Gibt es Anhaltspunkte dafür, dass die Daten verzerrt/ beeinflusst sein könnten? (z.B. Förderung durch politische oder wirtschafltiche Entitäten)

Sind die Daten ausgehend vom ursprünglichen Zweck auf die eigene neue Fragestellung übertragbar?

Weitere Aspekte zum Hinterfragen der Qualität gefundener oder selbst erhobener Daten werden im Zertifikatsprogramm Data Literacy Jena thematisiert.