Translation not up to date
K datům klastru v přenosných počítačích můžete použít škálovatelný algoritmus Two-Step nebo Model klastru Model klastru.
Klastr Two-Step
Rozšiřitelný Twi-Step je založen na známém dvoukrokovém klastrovém algoritmu, ale rozšiřuje jak jeho funkčnost, tak výkon v několika směrech.
Za prvé, může efektivně pracovat s velkými a distribuovanými daty, které poskytuje Spark, který poskytuje mapu-Redukovat výpočetní paradigma.
Za druhé, algoritmus poskytuje mechanizmus pro výběr nejrelevantnější funkce pro klastrování daných dat, stejně jako zjištění vzácných odlehlých bodů. Kromě toho nabízí vylepšený soubor vyhodnocení a diagnostických funkcí pro umožnění přehledu.
Dvoukrokový klastrový algoritmus nejprve provede krok před klastrováním tím, že skenuje celou datovou sadu a ukládá husté oblasti datových případů z hlediska souhrnných statistik nazývaných klastrové funkce. Funkce klastru jsou uloženy v paměti v datové struktuře s názvem CF-tree. Nakonec se na klastr se sadou funkcí klastru použije aglomertivní hierarchický klastrový algoritmus.
Příklad kódu produktu Python :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Vyhodnocení modelu klastru
Cílem vyhodnocení modelu klastru (CME) je interpretovat modely klastrů a získávat užitečné poznatky založené na různých hodnotících opatřeních.
Je to analýza po modelování, která je generická a nezávislá na jakýchkoli typech modelů klastrů.
Příklad kódu produktu Python :
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Nadřízené téma: Algoritmy prediktivních analýz produktuSPSS