0 / 0
Go back to the English version of the documentation
Algorytmy grupowania predykcyjnego SPSS w notebookach
Last updated: 28 kwi 2023
Algorytmy grupowania predykcyjnego SPSS w notebookach

Do grupowania danych w notebookach można użyć skalowalnego algorytmu oceny modelu Dwustopniowa lub skupień.

Grupowanie dwustopniowe

Skalowalny dwustopniowy jest oparty na zaznajomionym dwustopniowym algorytmie klastrowania, ale rozszerza zarówno jego funkcjonalność, jak i wydajność w kilku kierunkach.

Po pierwsze, może efektywnie współpracować z dużymi i rozproszonymi danymi obsługiwanymi przez Spark, który udostępnia paradygmat obliczeniowy Map-Reduty.

Po drugie, algorytm udostępnia mechanizmy służące do wybierania najbardziej istotnych funkcji w celu grupowania danych, a także wykrywania rzadkich punktów odstających. Ponadto udostępnia on rozszerzony zestaw funkcji oceny i diagnostyki umożliwiający wgląd w informacje.

Algorytm grupowania dwuetapowego najpierw wykonuje krok poprzedzający grupowanie, skanując cały zbiór danych i przechowując gęste regiony obserwacji danych w postaci statystyk podsumowujących nazywanych składnikami klastra. Funkcje klastra są przechowywane w pamięci w strukturze danych o nazwie CF-tree. Na koniec do klastra zestaw funkcji klastrowych stosowany jest algorytm hierarchicznego grupowania aglomeracyjnego.

Kod przykładowyPython :

from spss.ml.clustering.twostep import TwoStep

cluster = TwoStep(). \
    setInputFieldList(["region", "happy", "age"]). \
    setDistMeasure("LOGLIKELIHOOD"). \
    setFeatureImportanceMethod("CRITERION"). \
    setAutoClustering(True)

clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()

Ocena modelu skupień

Ocena modelu skupień (Cluster Model evaluation-CME) ma na celu interpretację modeli skupień i odkrycie przydatnych spostrzeżeń opartych na różnych środkach oceny.

Jest to analiza post-modelingu, która jest ogólna i niezależna od dowolnego typu modeli skupień.

Kod przykładowyPython :

from spss.ml.clustering.twostep import TwoStep

cluster = TwoStep(). \
    setInputFieldList(["region", "happy", "age"]). \
    setDistMeasure("LOGLIKELIHOOD"). \
    setFeatureImportanceMethod("CRITERION"). \
    setAutoClustering(True)

clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()

Temat nadrzędny: Algorytmy analizy predykcyjnejSPSS

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more