Datenschutz
In der Psychologie spielt Datenschutz eine ganz besonders wichtige Rolle, denn für gewöhnlich werden Daten von Menschen erhoben (in anderen Fällen sind es Daten aus Simulationsstudien oder Tierstudien). In diesem Beitrag erfahrt ihr, wie ihr den Datenschutz für eure Projekte auf LIFOS gewährleisten könnt und was ihr dafür beachten musst.
- Datenschutz – was, wieso, und wie
- Was sind personenbezogene, pseudonyme und anonyme Daten?
- Methoden der Anonymisierung
- Checkliste
- Was tun bei Unsicherheit?
1. Datenschutz – was, wieso, und wie
Die Datenschutz-Grundverordnung (DSGVO) ist eine Verordnung der Europäischen Union und enthält Bestimmungen und Regeln, wie personenbezogene Daten verarbeitet werden dürfen. Personenbezogene Daten sind dabei “(…) alle Informationen, die sich auf eine identifizierte oder identifizierbare Person beziehen (…)” (Art. 4 Abs. 1 DSGVO), wobei eine Person als identifizierbar angesehen wird, wenn sie “direkt oder indirekt (…) identifiziert werden kann” (ebd.). Eine Person kann “insbesondere mittels: Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online-Kennung oder durch Zuordnung zu einem oder mehreren besonderen Merkmalen (…), die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser natürlichen Person sind” (ebd.), identifiziert werden.
Das Ziel der DSGVO ist es, die informationelle Selbstbestimmung einer Person zu bewahren. Gerade in der Forschung mit Menschen ist es ethisch geboten, sicherzustellen, dass Teilnehmende freiwillig und informiert (sprich aufgeklärt) einwilligen und partizipieren. Dazu gehört auch, darüber aufzuklären, wie die Daten erhoben werden (z. B. pseudonymisiert oder anonymisiert) und was mit den Daten nach Ablauf der Studie passiert (z. B. werden die Daten nach 10 Jahren gelöscht oder werden die Daten öffentlich geteilt?). Wichtig: Wurden die Versuchspersonen in der Einverständniserklärung nicht darüber aufgeklärt, dass ihre Daten im Anschluss an die Studie öffentlich (anonymisiert) mit anderen Wissenschaftler:innen geteilt werden, so ist dies nicht erlaubt!
2. Was sind personenbezogene, pseudonyme und anonyme Daten?
Wie wir eben gelernt haben, sind im Zweifel in der psychologischen Forschung erst einmal alle Daten (und insbesondere in Kombination) personenbezogene Daten und somit auch identifizierbar. Was sind in diesem Zuge nun personenbezogene, pseudonyme und anonyme Daten?
Personenbezogene Daten: Dies sind Daten, die eindeutig einer Person zuzuordnen sind und die insbesondere in Kombination zum Teil einmalig auftreten wie z. B. Vorname und Name, Geburtsdatum, Geburtsort, Wohnort, Telefonnummer, etc. Hierzu zählen auch gesundheitsbezogene Daten. Der Health Insurance Portability and Accountability Act in den USA hat in diesem Zuge 18 sogenannte Identifizierer gelistet, die als personenbezogene Daten zählen (u.a. die oben genannten und darüber hinaus geographische Daten (z. B. PLZ), wichtige Daten (z. B. Datum des Schulabschlusses), Email-Adressen, Sozialversicherungsnummer, Steueridentifikationsnummer, IP-Adressen, medizinische Belege, etc.).
Pseudonyme Daten: In der Psychologie erheben wir oft pseudonymisierte Daten, indem wir z. B. Versuchspersonen darum bitten, einen individuellen Code (auch bekannt als VP-Code) zu generieren. Dieser wird mit den Namen der Versuchspersonen getrennt der eigentlichen Daten gespeichert und als Entblindungsliste bezeichnet. Eine Pseudonymisierung stellt sicher, dass die Daten mit Hilfe der Entblindungsliste auf die individuellen Versuchspersonen zurückzuführen und re-identifizierbar sind, um so z. B. bei Anfrage die Daten einer Versuchsperson zu löschen. Hinweis: Die Entblindungsliste sowie auch die von Versuchspersonen generierten Codes dürfen niemals öffentlich geteilt werden!
Frage: Wieso darf man den VP-Code nicht öffentlich teilen?
Szenario: Mein Partner und ich nehmen beide an der Studie teil. Weil über mehrere Messzeitpunkte erhoben wird, muss jede Versuchsperson einen individuellen Code erstellen. Selbst wenn die Anleitung zur Generierung des VP-Codes nicht geteilt wird, weiß ich, wie mein Code zustande kam. Darüber hinaus kenne ich meinen Partner gut genug, sodass ich ebenso in der Lage wäre, seinen VP-Code zu generieren. Dementsprechend kann ich ihn auch in der Liste re-identifizieren. Ergo ist die Anonymität nicht gewährleistet! Wird der VP-Code nicht geteilt, kann ich meinen Partner schon schwieriger oder idealerweise gar nicht re-identifizieren.
Anonyme Daten: Der Anspruch an anonyme Daten ist, dass eine Zuordnung der Daten zu den Versuchspersonen unmöglich ist. Achtung: Sobald auch nur eine einzige Person im Datensatz identifiziert werden kann, zählen die Daten nicht mehr als anonym!
Frage: Wie kann ein anonym-erhobenes Datenset nicht anonym sein?
Szenario: In eurer Studienkohorte wird eine Untersuchung zu den Big 5 Persönlichkeitsmerkmalen durchgeführt. Darüber hinaus werden auch euer Geschlecht und Alter erfasst. Diejenigen, die die Untersuchung durchführen, erhalten keine Information darüber, wer die Umfrage ausfüllt, außer die eben aufgeführten Informationen. Nun gibt es in eurer Kohorte aber nicht nur Frauen und Männer zwischen 18 und 25 Jahren, sondern vielleicht auch eine non-binäre Person, eine Frau im Alter von 41 Jahren und ein Mann im Alter von 50 Jahren. Sobald man diese Studierenden kennt, wird man sie auch im Datensatz erkennen und der Datensatz gilt nicht mehr als anonym. Anders wäre es, wenn die Umfrage z. B. in ganz Deutschland gelaufen wäre. Alter und Geschlecht reichen dann nicht mehr zwingend aus, um die Personen identifizieren zu können. Was an diesem Beispiel deutlich wird, ist, dass potentiell jedes Merkmal oder Kombination von Merkmalen eine Person identifizierbar machen könnte.
Erhöhtes Risiko: Folgende Umstände führen unter Umständen zu einem höheren Risiko der Re-Identifikation:
- Kleine Datensets mit nur sehr wenigen Versuchspersonen (z. B. alle Personen in Deutschland, die einen Flugzeugabsturz überlebt haben)
- Datensets mit einer sehr spezifischen Stichprobe (z. B. Studierende des ersten Semesters Psychologie, die bereits Eltern sind)
- Variablen mit einzigartigen Merkmalsausprägungen (z. B. individuelle biographische Details, oder eine Person ist mit Abstand älter als die anderen)
- Von Natur aus seltene Werte (z. B. seltene Erkrankungen)
- Dyadische Daten (z. B. Zwillingsstudien, Partnerschaftsstudien)
3. Methoden der Anonymisierung
Die meisten Daten, die wir in der Psychologie erheben, sind nicht sofort anonym. Häufig benötigt es Änderungen am Datenset, um eine Anonymisierung zu erreichen. Im Folgenden werden mehrere Vorgehensweisen erläutert.
- Entfernung von eindeutig personenbezogenen Variablen (wie Namen, Email-Adressen, Matrikelnummern, und auch VP-Codes)
- Entfernung von Variablen, die nicht zur Reproduzierbarkeit der Ergebnisse benötigt werden (Nach dem Prinzip der Datensparsamkeit. Entfernt werden können z. B.: Meta-Daten wie Login-Zeit, Server-Log-Daten, Browser und OS-Version, und auch freie Textfelder)
- Augenmerk legen auf einzigartige Merkmalsausprägungen (z. B. Geschlecht, Alter, …) und Variablen ggf. entfernen
- Daten k-anonymisieren (K-Anonymität, sodass keine Kombination von Merkmalsausprägungen einzigartig im Datenset ist, sondern öfters vorkommt und somit keinen Schluss auf einzelne Personen zulässt. K-Anonymität kann durch verschiedene Möglichkeiten erreicht werden, wie z. B. binnen: statt des kontinuierlichen Alters 21, 23, und 24, gibt man ordinale Kategorien an: zwischen 20 und 25 Jahre, wodurch drei individuelle Werte zu einem gemeinsamen wurden)
Anonymisierungstechniken führen immer auch zu einem Informationsverlust, sind aber von immenser Bedeutung, um die Anonymität und den Schutz der Versuchspersonen zu wahren!
4. Checkliste
Hier ist eine Checkliste mit Fragen, die euch dabei helfen soll, zu überprüfen, ob euer Datenset ausreichend anonymisiert wurde, um es auf LIFOS zu teilen.
- Wurden alle personenbezogenen Daten aus dem Datenset entfernt?
- Wurden alle irrelevanten Variablen (z. B. nicht relevant zur Auswertung oder automatisch mit erhoben) aus dem Datenset entfernt?
- Gibt es einzigartige Merkmalsausprägungen auf Variablen oder Kombinationen mehrerer Variablen, die zu einer Re-Identifikation der Versuchsperson führen könnten?
- Weist das Datenset Strukturen auf, die zu einem erhöhten Risiko der Identifikation führen (siehe unter 2.) und wäre es zum Schutz der Versuchspersonen besser, das Datenset nur auf Nachfrage (“Data available upon request”) zu teilen?
- Könnte es einer Versuchsperson schaden, wenn sie im Datenset wiedererkannt wird (z. B. durch Erpressung mit Bekanntmachung sensibler Daten)?
Hinweis: Für LIFOS empfehlen wir, Alter und Geschlecht gänzlich aus den Datensätzen zu entfernen, wenn sie nicht Gegenstand der Untersuchung sind.
5. Was tun bei Unsicherheit?
Lasst eure Betreuer:innen euer Datenset vor dem Teilen absegnen und solltet ihr euch unsicher sein, ob euer Datenset auf LIFOS geteilt werden kann, haltet bitte Rücksprache mit euren Betreuer:innen. Bei weiteren Fragen, Unklarheiten oder Anmerkungen könnt ihr uns auch unter LIFOS[at]uni-frankfurt[punkt]de erreichen.