Translation not up to date
Do grupowania danych w notebookach można użyć skalowalnego algorytmu oceny modelu Dwustopniowa lub skupień.
Grupowanie dwustopniowe
Skalowalny dwustopniowy jest oparty na zaznajomionym dwustopniowym algorytmie klastrowania, ale rozszerza zarówno jego funkcjonalność, jak i wydajność w kilku kierunkach.
Po pierwsze, może efektywnie współpracować z dużymi i rozproszonymi danymi obsługiwanymi przez Spark, który udostępnia paradygmat obliczeniowy Map-Reduty.
Po drugie, algorytm udostępnia mechanizmy służące do wybierania najbardziej istotnych funkcji w celu grupowania danych, a także wykrywania rzadkich punktów odstających. Ponadto udostępnia on rozszerzony zestaw funkcji oceny i diagnostyki umożliwiający wgląd w informacje.
Algorytm grupowania dwuetapowego najpierw wykonuje krok poprzedzający grupowanie, skanując cały zbiór danych i przechowując gęste regiony obserwacji danych w postaci statystyk podsumowujących nazywanych składnikami klastra. Funkcje klastra są przechowywane w pamięci w strukturze danych o nazwie CF-tree. Na koniec do klastra zestaw funkcji klastrowych stosowany jest algorytm hierarchicznego grupowania aglomeracyjnego.
Kod przykładowyPython :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Ocena modelu skupień
Ocena modelu skupień (Cluster Model evaluation-CME) ma na celu interpretację modeli skupień i odkrycie przydatnych spostrzeżeń opartych na różnych środkach oceny.
Jest to analiza post-modelingu, która jest ogólna i niezależna od dowolnego typu modeli skupień.
Kod przykładowyPython :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Temat nadrzędny: Algorytmy analizy predykcyjnejSPSS