Use-Files

Scientific-Use-Files

Wissenschaftlerinnen und Wissenschaftler, die an Universitäten oder öffentlich finanzierten Forschungseinrichtungen arbeiten, können für ihre wissenschaftliche Arbeit faktisch anonymisierte Datensätze in Form von Scientific-Use-Files für die Nutzung am eigenen Institut erhalten. Faktische Anonymität liegt vor, wenn ein Datensatz derart verändert wurde, dass eine Re-Identifizierung von Befragten aufgrund der herausgegebenen Informationen nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft möglich wird (§3(7) BDSG). Scientific-Use-Files erlauben also faktisch keine Identifizierung einzelner Unternehmen oder Personen.

Die Scientific-Use-Files des ZEW beinhalten weder Angaben zum Unternehmensnamen bzw. Namen von Personen noch zu Adressen oder Telefonnummern. Zur Anonymisierung werden darüber hinaus Informationen im Datensatz aggregiert, anderweitig verändert oder ganz aus dem Datensatz entfernt, die einen Rückschluss auf ein individuelles Unternehmen oder eine Person erleichtern würden. Für die einzelnen vom ZEW angebotenen Scientific-Use-Files werden datenspezifische Anonymisierungsmethoden angewandt.

Die Scientific-Use-Files sind nicht nur zur Analyse im eigenen Institut vorgesehen, sondern auch zur Vorbereitung eines potenziellen Gastaufenthaltes am ZEW-FDZ. Programmierarbeiten und sonstige Vorarbeiten können somit schon im Vorfeld eines Gastaufenthaltes getätigt werden.
Scientific-Use-Files sind für folgende Datensätze verfügbar:

Die Scientific-Use-Files des Mannheimer Innovationspanels und des IAB/ZEW-Gründungspanels werden externen Forschenden aus Datenschutzgründen jeweils erst im dritten Jahr nach dem Jahr der Erhebung zur Verfügung gestellt.

Education-Use-Files

Im Gegensatz zu den Scientific-Use-Files sind die Education-Use-Files des ZEW absolut anonymisiert, d.h. es kann absolut ausgeschlossen werden, dass Einzelangaben auf Befragte zurückgeführt werden können. Das ZEW bietet Education-Use-Files des Mannheimer Innovationspanels (MIP) der Erhebungsjahre 1999, 2001, 2003, 2005, 2009 und 2011 an. Die Daten sind zum Einsatz in der Lehre an Universitäten oder Hochschulen bestimmt, um die Anwendungsmöglichkeiten ökonometrischer Analysemethoden für Unternehmensdaten im Rahmen innovationsökonomischer Fragestellungen kennenzulernen und einzuüben. Die inhaltliche Interpretation der Ergebnisse ist allerdings eingeschränkt und daher sind die Education-Use-Files nicht für die Beantwortung von Forschungsfragen geeignet.

Zur Sicherstellung der absoluten Anonymität werden verschiedene Anonymisierungsmethoden angewendet, die eine starke Veränderung der Originalangaben bewirken. Bei den Education-Use-Files handelt es sich um ein Resample einer Variante der Scientific-Use-Files des MIP, also von Datensätzen, die bereits eine erste Stufe der Anonymisierung durchlaufen haben. Beim Resample sind die Einzelangaben der metrischen Variablen im Datensatz Ziehungen aus der Kerndichteverteilung der Ursprungsdaten und entsprechen nicht mehr den wahren Angaben. Die Beobachtungen können nicht mehr eindeutig einem Unternehmen zugeordnet werden. Die zu anonymisierenden Mikrodaten werden als Basisinformation für die Erstellung synthetischer Merkmalsträger zugrunde gelegt. Die künstlichen Daten sollen dieselben Eigenschaften, d.h. dieselbe multivariate Verteilungsfunktion, besitzen wie die Originalmikrodaten. Die Philosophie besteht darin, für alle Belange optimale anonymisierte Datensätze zu generieren. Einerseits ist mit der Weitergabe künstlicher Daten kein Datenschutzproblem verbunden, da sie keine realen Beobachtungen enthalten. Andererseits entsteht dem/der Datennutzer/in kein Informationsverlust, wenn das vorliegende Datenmaterial alle Verteilungsparameter der ihn interessierenden Mikrodaten abbildet. (Für eine Beschreibung des Verfahrens siehe Gottschalk, S. (2005), Unternehmensdaten zwischen Datenschutz und Analysepotenzial, Baden-Baden. Auf Nachfrage ist eine Beschreibung auch direkt bei der Autorin erhältlich.)