TwoStep-Clusterknoten

Letzte Aktualisierung: 12. Feb. 2025
TwoStep-Clusterknoten (SPSS Modeler)

Der TwoStep-Clusterknoten bietet eine Form der Clusteranalyse. Mit dieser Methode können Sie ein Clustering der Datasets in einzelne Gruppen vornehmen, wenn Sie nicht wissen, wie diese Gruppen am Anfang aussehen. Ebenso wie Kohonen-Knoten und K-Means-Knoten verwenden auch TwoStep-Clustermodelle kein Zielfeld. Statt zu versuchen, ein Ergebnis vorherzusagen, versuchen TwoStep-Cluster, Muster im Set der Eingabefelder zu entdecken. Datensätze werden in Gruppen zusammengefasst, wobei Datensätze innerhalb einer Gruppe oder eines Clusters ähnlich und Datensätze in verschiedenen Gruppen unterschiedlich sind.

Beim TwoStep-Cluster handelt es sich um eine Clustering-Methode in zwei Schritten. Im ersten Schritt wird ein einzelner Durchlauf durch die Daten vorgenommen, bei dem die Eingaberohdaten zu einem verwaltbaren Set von Subclustern komprimiert werden. Im zweiten Schritt wird eine hierarchische Clustering-Methode verwendet, mit der die Subcluster zu immer größeren Clustern zusammengeführt werden. Dabei ist kein erneuter Durchlauf durch die Daten erforderlich. Das hierarchische Clustering bietet den Vorteil, dass vorab keine Clusteranzahl ausgewählt werden muss. Bei vielen hierarchischen Clustering-Methoden werden einzelne Datensätze als Startcluster verwendet, die dann rekursiv zu noch größeren Clustern zusammengeführt werden. Diese Methoden versagen häufig bei großen Datenmengen. Durch das anfängliche Vorclustering von TwoStep wird das hierarchische Clustering hingegen auch für große Datasets zu einem schnellen Verfahren.

Hinweis: Das resultierende Modell hängt bis zu einem gewissen Grad von der Reihenfolge der Trainingsdaten ab. Eine Änderung der Datenreihenfolge und ein erneutes Erstellen des Modells kann zu einem anderen endgültigen Clustermodell führen.

Anforderungen. Zum Trainieren eines TwoStep -Clustermodells benötigen Sie mindestens ein Feld mit der Rolle Input. Felder mit der Rolle Target, Bothoder None werden ignoriert. Der TwoStep-Clusteralgorithmus verarbeitet keine fehlenden Werte. Bei der Modellerstellung werden Datensätze, die in einem der Eingabefelder Leerzeichen enthalten, ignoriert.

Stärken. TwoStep-Clustering kann gemischte Feldtypen verarbeiten und ist in der Lage, große Datasets effizient zu verarbeiten. Es verfügt außerdem über die Fähigkeit, mehrere Clusterlösungen zu testen und die beste auszuwählen, sodass Sie nicht wissen müssen, wie viele Cluster Sie am Anfang abrufen müssen. TwoStep-Cluster können so eingestellt werden, dass Ausreißer oder äußerst unwahrscheinliche Fälle, die Ihre Ergebnisse verfälschen könnten, automatisch ausgeschlossen werden.