Zentrum für Europäische Wirtschaftsforschung GmbH

Springe direkt zu:


Logo ZEW [ D]


Suche überspringen

Suche




Inhaltsbereich überspringen

Inhaltsbereich

ZEW Discussion Papers

Clustering Life Trajectories - A New Divisive Hierarchical Clustering Algorithm for Discrete-valued Discrete Time Series

Dlugosz, Stephan (2011), Clustering Life Trajectories - A New Divisive Hierarchical Clustering Algorithm for Discrete-valued Discrete Time Series, ZEW Discussion Paper No. 11-015, Mannheim. Download

Die Cluster-Analyse ist eine Technik, um Objekte (hier: Personen) in Gruppen einzuteilen, welche idealerweise homogen in sich und heterogen untereinander sind. Im Rahmen der Datenaufbereitung erreicht man so eine Sytematisierung der Beobachtungen einer ansonsten schwer beherrschbaren Grundgesamtheit, auf welche in den nachfolgenden Analyseschritten Bezug genommen werden kann. Die meisten Clustertechniken basieren auf der Definition von Distanzmaßen, aber die Festlegung eines guten - d.h. interpretierbaren - Maßes ist schwierig. Aus diesem Grund können direktere Methoden, welche auf Streuungsmaßen basieren, häufig leichter interpretierbare Ergebnisse erzielen, insbesondere wenn die Variablen kategoriell sind: Homogenität und Heterogenität können dann als die zwei Extrempunkte eines Streuungsmaßes verstanden werden. In diesem Papier wird eine neue Clustertechnik für diskrete Zeitreihen mit kategoriellen Werten zum Clustern von Lebensläufen eingeführt, welches anstatt auf Distanzmaßen auf Streuungsmaßen basiert und auch nominale Werte berücksichtigen kann. Zusätzlich werden kategoriale Assoziationsmaße definiert um die temporale Abhängigkeitstruktur der Zeitreihe zu berücksichtigen. Die Maßdefinitionen werden diskutiert, ein Clustermodell eingeführt und die Anwendbarkeit des neuen Algorithmus anhand eines recht großen Datensatz der Deutschen Rentenversicherung demonstriert. Dieses Papier liefert die technische Grundlage, um die heterogene Vergangenheit von Personen in Beobachtungsstudien (beispielweise im Rahmen von Politikevaluationen) präziser berücksichtigen zu können, ohne sofort mit einem Dimensionalitätsproblem konfrontiert zu werden.

Keywords: clustering, measures of association, discrete data, time series


Copyright


Zum Seitenanfang