Sie können den skalierbaren Two-Step-Algorithmus oder den Bewertungsalgorithmus für Clustermodelle verwenden, um Clusterdaten in Notebooks zu gruppieren.
Two-Step-Cluster
Skalierbares Two-Step-Clustering basiert auf dem bekannten Two-Step-Clusteralgorithmus, erweitert aber dessen Funktionalität und Leistung in mehrerer Hinsicht.
Erstens kann es effektiv mit umfangreichen und verteilten Daten arbeiten, wobei es durch Spark unterstützt wird, das das MapReduce-Berechnungskonzept bereitstellt.
Zweitens stellt der Algorithmus Mechanismen zum Auswählen der relevantesten Funktionen für das Clustering der angegebenen Daten sowie zum Erkennen von seltenen Ausreißerpunkten bereit. Außerdem stellt es ein erweiterte Gruppe von Auswertungs- und Diagnosefunktionen zum Aktivieren von Einblicken bereit.
Der Two-Step-Clusteralgorithmus bereitet das Clustering in einem ersten Schritt vor. Dazu wird das gesamte Dataset gescannt und ähnliche Daten werden anhand der Auswertungsstatistiken (so genannte Clusterfunktionen) in Clustern gespeichert. Die Clusterfunktionen werden im Speicher in einer Datenstruktur (so genannte CF-Baumstruktur) gespeichert. Schließlich wird ein agglomerativer hierarchischer Clusteralgorithmus angewendet, um die Gruppe der Clusterfunktionen in verschiedene Gruppen aufzuteilen.
Python-Beispielcode:
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Clustermodellevaluierung
Die Clustermodellevaluierung (CME) dient zum Interpretieren von Clustermodellen und zum Erkennen nützlicher Einblicke auf der Basis verschiedener Evaluierungsmaße.
Diese Analyse erfolgt nach der Modellierung. Sie ist generisch und unabhängig von allen Clustermodelltypen.
Python-Beispielcode:
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Übergeordnetes Thema: SPSS Vorhersageanalysealgorithmen