Clustering Life Trajectories - A New Divisive Hierarchical Clustering Algorithm for Discrete-valued Discrete Time Series

ZEW Discussion Paper Nr. 11-015 // 2011
ZEW Discussion Paper Nr. 11-015 // 2011

Clustering Life Trajectories - A New Divisive Hierarchical Clustering Algorithm for Discrete-valued Discrete Time Series

Die Cluster-Analyse ist eine Technik, um Objekte (hier: Personen) in Gruppen einzuteilen, welche idealerweise homogen in sich und heterogen untereinander sind. Im Rahmen der Datenaufbereitung erreicht man so eine Sytematisierung der Beobachtungen einer ansonsten schwer beherrschbaren Grundgesamtheit, auf welche in den nachfolgenden Analyseschritten Bezug genommen werden kann. Die meisten Clustertechniken basieren auf der Definition von Distanzmaßen, aber die Festlegung eines guten - d.h. interpretierbaren - Maßes ist schwierig. Aus diesem Grund können direktere Methoden, welche auf Streuungsmaßen basieren, häufig leichter interpretierbare Ergebnisse erzielen, insbesondere wenn die Variablen kategoriell sind: Homogenität und Heterogenität können dann als die zwei Extrempunkte eines Streuungsmaßes verstanden werden. In diesem Papier wird eine neue Clustertechnik für diskrete Zeitreihen mit kategoriellen Werten zum Clustern von Lebensläufen eingeführt, welches anstatt auf Distanzmaßen auf Streuungsmaßen basiert und auch nominale Werte berücksichtigen kann. Zusätzlich werden kategoriale Assoziationsmaße definiert um die temporale Abhängigkeitstruktur der Zeitreihe zu berücksichtigen. Die Maßdefinitionen werden diskutiert, ein Clustermodell eingeführt und die Anwendbarkeit des neuen Algorithmus anhand eines recht großen Datensatz der Deutschen Rentenversicherung demonstriert. Dieses Papier liefert die technische Grundlage, um die heterogene Vergangenheit von Personen in Beobachtungsstudien (beispielweise im Rahmen von Politikevaluationen) präziser berücksichtigen zu können, ohne sofort mit einem Dimensionalitätsproblem konfrontiert zu werden.

Dlugosz, Stephan (2011), Clustering Life Trajectories - A New Divisive Hierarchical Clustering Algorithm for Discrete-valued Discrete Time Series, ZEW Discussion Paper Nr. 11-015, Mannheim.

Autoren/-innen Stephan Dlugosz