È possibile utilizzare l'algoritmo scalabile Two-Step o di valutazione del modello Cluster per raggruppare i dati nei notebook.
Cluster TwoStep
Scalabile a due fasi si basa sul familiare algoritmo di raggruppamento in cluster a due fasi, ma estende la sua funzionalità e le sue prestazioni in diverse direzioni.
In primo luogo, può funzionare efficacemente con dati di grandi dimensioni e distribuiti supportati da Spark che fornisce il paradigma di calcolo Map - Reduce.
In secondo luogo, l'algoritmo fornisce meccanismi per la selezione delle funzioni più rilevanti per raggruppare i dati forniti, oltre a rilevare punti anomali rari. Inoltre, fornisce una serie migliorata di funzioni di valutazione e diagnostica per abilitare le informazioni.
L'algoritmo di clustering a due fasi esegue innanzitutto un passo di pre - clustering scannerizzando l'intero dataset e memorizzando le regioni dense di casi di dati in termini di statistiche di riepilogo denominate funzioni cluster. Le funzioni cluster vengono memorizzate in memoria in una struttura dati denominata CF-tree. Infine, un algoritmo di cluster gerarchico agglomerativo viene applicato per raggruppare l'insieme di funzioni del cluster.
Codice di esempioPython :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Valutazione del modello di cluster
La valutazione del modello di cluster (CME) mira a interpretare i modelli di cluster e a scoprire informazioni utili basate su varie misure di valutazione.
Si tratta di un'analisi post - modeling generica e indipendente da qualsiasi tipo di modello di cluster.
Codice di esempioPython :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Argomento principale SPSS algoritmi di analisi predittiva