24. Oktober 2019

Anonymisierung von Gesundheitsdaten – Theorie und Praxis

Dass Daten unheimlich wertvoll sein können und sich mit Big Data unzählige neue Möglichkeiten ergeben, ist längst kein Geheimnis mehr. Daten sind begehrt und auch der Gesundheitssektor bildet da keine Ausnahme. Im Gegenteil: Große Datenmengen werden beispielsweise in Krankenhäusern in der Regel ohnehin schon erhoben (z.B., wenn Computertomografie-Scans gespeichert oder Daten über den körperlichen Zustand aufgenommen werden). Zum anderen lassen sich mit der Zusammenführung all dieser Daten immer bessere Analysen erzielen. Unter dem Stichwort „Big Data“ können aus großen und ungeordneten Datenmengen Gesetzmäßigkeiten herausgelesen werden, mit denen Krankheiten immer besser verstanden und bekämpft werden können.

Keine Daten ohne Datenschutz?

Doch auch angesichts dieser sicherlich begrüßenswerten Ziele werden gegen die uneingeschränkte Nutzung von Big Data-Anwendungen einige datenschutzrechtliche Bedenken angemeldet – auch und gerade im Gesundheitsbereich. Denn fast alle dieser erhobenen Daten sind sogenannte personenbezogene Daten, die die EU-Datenschutz-Grundverordnung („DSGVO“) in Art. 4 Nr. 1 als Informationen definiert, „die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen“. Zum Schutz dieser Personen, der „Betroffenen“, werden der Datenverarbeitung einige Schranken auferlegt. Im Gesundheitsbereich gelten sogar noch strengere Vorgaben, da Gesundheitsdaten als besonders sensibel und damit besonders schutzwürdig eingestuft werden. Damit ist allerdings nicht gemeint, dass sich die DSGVO neuen Technologien in den Weg stellen möchte. Vielmehr soll zunächst vor allem auch die Transparenz der Datenverarbeitung verbessert werden, was im Ergebnis auch dazu führen kann, dass das Vertrauen der betroffenen Personen in die Rechtsmäßigkeit und Sicherheit der Verarbeitung ihrer Daten gestärkt wird.

Wer sich nun möglichst wenig mit den datenschutzrechtlichen Vorgaben auseinandersetzen möchte, kann auf das Mittel der Anonymisierung von Daten zurückgreifen. Dabei wird der Personenbezug der Daten derart aufgehoben, dass sie keine personenbezogenen Daten mehr darstellen – damit sind datenschutzrechtliche Regelungen (insbesondere die DSGVO) nicht mehr anwendbar. Zwar können Big Data-Anwendungen grundsätzlich auch auf der Basis von nicht-anonymisierten personenbezogenen Daten durchgeführt werden, doch müssen dann alle datenschutzrechtlichen Anforderungen der DSGVO erfüllt werden. Das ist im Gesundheitsbereich sehr oft nicht oder nur mit hohem Aufwand möglich, da allein schon die Erfüllung der Informationspflichten bei großen Datenmengen sehr arbeitsintensiv sein kann. In vielen Fällen fehlt es auch an einer gesetzlichen Rechtsgrundlage für die gewünschte Verarbeitung der Daten, so dass dann auf eine Einwilligung der Betroffenen zurückgegriffen werden muss, die allerdings jederzeit auch widerrufen werden kann. Nach einer Anonymisierung der Daten hingegen gilt die DSGVO nicht mehr und die Daten können zu Forschungs- oder sonstigen Zwecken genutzt werden, ohne dass datenschutzrechtliche Anforderungen oder Beschränkungen (wie z.B. auch der Zweckbindungsgrundsatz) beachtet werden müssen.

Health & Law Netzwerktreff

Was Anonymisierung bedeutet

Zunächst sollte die Anonymisierung nicht mit der Pseudonymisierung von Daten verwechselt werden. Unter Pseudonymisierung ist die Verarbeitung von Daten in der Weise zu verstehen, dass sie in der Folge nur dann noch einer spezifischen Person zugeordnet werden können, wenn man hierzu auf zusätzliche und gegebenenfalls an anderer Stelle vorhandene Informationen zurückgreifen kann, die es erlauben, einen konkreten Personenbezug (wieder) herzustellen. Die betroffene Person ist dann zwar nicht mehr „bestimmt“, aber immer noch „bestimmbar“. Die Bestimmbarkeit reicht allerdings aus, um solche Informationen noch als personenbezogene Daten einzuordnen. Für anonyme Daten hingegen besteht auch unter Hinzuziehung zusätzlicher Angaben keine Möglichkeit, sie auf eine bestimmte Person zu beziehen. Die DSGVO muss deshalb bei anonymen Daten nicht beachtet werden, weil für niemanden mehr ein datenschutzrechtliches Risiko besteht.

Das klingt allerdings einfacher, als es in der Praxis oftmals tatsächlich ist. Denn da es für anonymisierte Daten keinerlei datenschutzrechtliche Vorgaben mehr gibt, muss zum Schutz der Personen, auf die sich das ursprüngliche Datenmaterial bezieht, der Personenbezug auch wirklich zweifelsfrei unmöglich gemacht worden sein – entsprechend hoch kann der mit dem Anonymisierungsprozess verbundene Aufwand sein. Auch das gilt für das Gesundheitswesen wieder in besonderem Maße. Denn neben ihrer Sensibilität weisen Gesundheitsdaten oftmals einen hohen Grad an Individualität auf, welcher die Identifizierung der betroffenen Personen unter Umständen auch dann noch möglich macht, wenn sonstige Klarangaben oder IDs (wie zum Beispiel eine Patientennummer o.Ä.) fehlen bzw. gelöscht werden. Zudem können systemarchitektonische Umstände dazu führen, dass eine Anonymisierung nicht ohne Weiteres umsetzbar ist. Das kann insbesondere dann der Fall sein, wenn die Aufhebung des Personenbezugs eigentlich die Löschung einer bestimmten Angabe (wie z.B. eine Patientennummer) erfordern würde, dieser Angabe aber eine systemarchitektonische Funktion zukommt und ihre Löschung zum Zusammenbruch des Verarbeitungssystems oder zu Funktionseinschränkungen führen würde. Um eine Anonymisierung doch erreichen zu können, gibt es verschiedene Verfahren, von denen einige im Folgenden vorgestellt werden.

Die Methode in der Praxis

Zuvor aber ist zu beachten, dass auch der Vorgang der Anonymisierung für sich genommen eine Datenverarbeitung im Sinne der DSGVO darstellt. Als solche bedarf auch die Anonymisierung selbst einer Rechtsgrundlage, um rechtmäßig zu sein. In Betracht kommen sowohl die Einwilligung (Art. 6 Abs. 1 lit. a DSGVO) als auch die Verarbeitung zugunsten wissenschaftlicher Forschung oder statistischer Zwecke (§ 27 BDSG). Die Anforderungen daran sind in den meisten Fällen allerdings vergleichsweise gering, da der Personenbezug ja gerade entfernt wird.

Zurück zur eigentlichen Anonymisierung: Was also muss mit den Daten nun gemacht werden? Werden einfach Name und Adresse entfernt, reicht das in aller Regel nicht aus, um die Daten zu anonymisieren. Aus den übrigen Daten (beispielsweise über Krankheitsbilder oder verabreichte Medikamente in Kombination mit dem behandelnden Arzt oder auch nur dem Wohnort) lässt sich oft trotzdem die betreffende Person schnell identifizieren. Einheitliche Vorgaben, die man erfüllen muss, um eine Anonymisierung zu erreichen, gibt es leider nicht – denn welche Maßnahmen zur Anonymisierung genau notwendig sind, hängt immer von der Datenlage im konkreten Fall ab. Je individueller und einzigartiger die Daten, desto mehr muss verändert werden. Seltene Attribute sollten also in aller Regel entfernt werden. Für ein besseres Ergebnis gibt es sechs gängige Anonymisierungstechniken (diese werden häufig unterschiedlich betitelt), die auch miteinander kombiniert werden können, wenn nicht sogar auch miteinander kombiniert werden sollten.

Mit der Methode der Verallgemeinerung können die Maßstäbe der jeweiligen Datensätze vergrößert werden, sodass die Daten keiner einzelnen Person mehr zugeordnet werden können. Die Verallgemeinerung muss dabei einerseits groß genug sein, um den Personenbezug ausschließen zu können; andererseits darf sie nicht so groß sein, dass die jeweilige Information ihre Aussagekraft völlig verliert: Erhalten alle Patienten innerhalb einer verallgemeinerten Gruppe aufgrund der Verallgemeinerung im Ergebnis das gleiche Medikament, hat die Verallgemeinerung wenig genützt.

Bei der Methode der Nichtangabe wird das zu schützende Datum nicht verwendet, also einfach weggelassen. Zum Beispiel kann bereits durch eine Löschung einer ganzen Tabellenspalte einer Datenbank eine Anonymisierung erfolgen. Letztlich ist die Nichtangabe die sicherste Methode Daten zu Anonymisieren, solange genügend Daten nicht angegeben worden sind.

Greift man auf die Methode der Maskierung/Ersetzung zurück, werden die zu schützenden Daten mit einer Konstanten oder sich ändern den Wert, Zeichen oder Zeichenkette ersetzt. Sobald der Tag und der Monat von Geburtsdaten jeweils auf „00“ geändert wird oder die Namen auf feste Zeichenkette z.B. Max Mustermann umgestellt werden erfolgt bereits dadurch eine Maskierung. Eine Maskierung kann auch erfolgen in dem das Datum durch mit einem sich erhöhendem Wert ersetzt wird.

Ein(e) Verwürfelung/Tausch der in den Datensätzen enthaltenen Werte erfolgt bei der Mischungs-/Shuffelingsmethode. Die Grundlage für diese Durchmischung sollte eine Zufallsverteilung sein, die jedem Datenfeld die Daten bzw. Teilmenge der Daten eines anderen Datenfeldes zuordnet, wodurch letztlich ein neuer Datensatz gebildet wird.

Durch die sog. Varianzmethode werden die Werte zahlenbasierter Daten erhöht oder verringert, ohne dabei die Aussage der Statistik zu verändern. Das lässt sich mit Veränderungen wie des Geburtsdatums vom 14. auf den 17. August oder der Körpergröße von 1,77 m auf 1,72 m erreichen. Ähnlich ist das Vertauschen einzelner Werte, indem die verschiedenen Attribute einfach anderen Personen zugeordnet werden. Das verändert nicht die statistische Aussage und kann dennoch dazu führen, dass nicht mehr klar ist, welche Gesundheitsdaten zu welcher Person gehören.

Letztlich kann eine Anonymisierung der Daten auch durch die sogenannten Kryptografischen Methoden erfolgen. Hierbei kommen Verschlüsselungs- und/oder Hash-Algorithmen zum Einsatz die die verschiedenen Daten soweit automatisiert anonymisieren.

Fazit

Trotz allem gibt es durchaus kritische Stimmen, die die Methode der Anonymisierung für das Gesundheitswesen grundsätzlich in Frage stellen und davon ausgehen, dass sich bei Gesundheitsdaten, will man sie noch vernünftig verwenden, ein Personenbezug fast immer wieder herstellen lässt. Doch letztlich muss von Fall zu Fall entschieden werden, ob die vorhandenen Methoden ausreichend und ob die am Ende verallgemeinerten, geänderten oder vertauschten Daten für die Verwendung zu den gewünschten Zwecken noch geeignet sind. Denn nur wenn es gelingt, einen Datensatz zu generieren, bei dem die Identifizierung der Betroffenen nicht mehr möglich oder aufgrund des erforderlichen unverhältnismäßigen Aufwands praktisch nicht mehr durchführbar ist, sind die Daten anonymisiert und frei verwendbar. Ist das nicht möglich, müssen alle datenschutzrechtlichen Vorgaben beachtet werden. Grundsätzlich lässt sich festhalten, dass Datenschutz und neue Technologien wie Big Data-Anwendungen auch im Gesundheitswesen miteinander vereinbar sind. Will man sich bei der Verarbeitung und Auswertung von Daten und Informationen darauf berufen, dass diese vor der Verarbeitung anonymisiert wurden, sollten die Anforderungen und Möglichkeiten einer datenschutzrechtlich sicheren Anonymisierung in der Praxis sorgfältig geprüft und beachtet werden.

Newsletter

Bleiben Sie immer up to date in Sachen Datenschutz!