Vous pouvez utiliser l'algorithme d'évaluation à deux étapes ou à un modèle de cluster pour regrouper les données d'un bloc-notes.
Cluster Two-Step
Un cluster Two-Step évolutif se base sur l'algorithme connu de regroupement en deux étapes, en étendant ses fonctionnalités et ses performances dans plusieurs directions.
En premier lieu, il peut effectivement utiliser des données volumineuses et réparties prises en charge par Spark qui fournit le paradigme de calcul Map-Reduce.
En second lieu, l'algorithme fournit des mécanismes permettant de sélectionner les fonctions les plus pertinentes pour le regroupement des données fournies, ainsi que la détection des rares points extrêmes. Il fournit également un ensemble amélioré de fonctions d'évaluation et de diagnostic pour une meilleure compréhension.
L'algorithme de regroupement en deux étapes commence par une étape de pré-regroupement en analysant l'ensemble du jeu de données et en stockant les régions denses de cas de données en termes de statistiques récapitulatives, appelées caractéristiques du cluster. Les caractéristiques du cluster sont stockées en mémoire dans une structure de données appelée CF-tree. Enfin, un algorithme de regroupement hiérarchique agglomérant est appliqué pour regrouper l'ensemble des caractéristiques du cluster.
Exemple de code Python :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Evaluation du modèle de cluster
L'évaluation du modèle de cluster (CME) a pour objet d'interpréter les modèles de cluster et de découvrir des informations utiles basées sur différentes mesures d'évaluation.
C'est une analyse post-modélisation qui est générique et indépendante de tout type de modèle de cluster.
Exemple de code Python :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Rubrique parent: SPSS