ノートブックでの SPSS 予測分析クラスタリング・アルゴリズム

資料の英語版に戻る

最終更新: 2024年10月04日

ノートブックでの SPSS 予測分析クラスタリング・アルゴリズム

スケーラブルな 2 段階アルゴリズムまたはクラスター・モデル評価アルゴリズムを使用して、ノートブック内のデータをクラスター化することができます。

Two-Step クラスター

スケーラブル Two-Step は、使い慣れた 2 段階のクラスタリング・アルゴリズムに基づいていますが、いくつかの面で機能とパフォーマンスの両方が拡張されています。

まず、Map-Reduce コンピューティング・パラダイムを提供する Spark によってサポートされる、大規模な分散データを効果的に処理することができます。

次に、このアルゴリズムは、与えられたデータのクラスター化に最も関連性の高い機能を選択するメカニズムと、稀な外れ値を検出するメカニズムを提供します。さらに、洞察を可能にするための、拡張された一連の評価機能と診断機能を提供します。

2 段階クラスタリング・アルゴリズムは、まず、データ・セット全体をスキャンし、クラスター特性と呼ばれる要約統計量の観点からデータ・ケースの高密度領域を保管することによって、事前クラスタリング・ステップを実行します。このクラスター特性は、CF-tree というデータ構造でメモリーに保管されます。最後に、凝集性の階層型クラスタリング・アルゴリズムが、クラスター特性のセットをクラスタリングするために適用されます。

Python コード例:

from spss.ml.clustering.twostep import TwoStep

cluster = TwoStep(). \
    setInputFieldList(["region", "happy", "age"]). \
    setDistMeasure("LOGLIKELIHOOD"). \
    setFeatureImportanceMethod("CRITERION"). \
    setAutoClustering(True)

clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()

クラスター・モデル評価

クラスター・モデル評価 (CME) は、さまざまな評価指標に基づいてクラスター・モデルを解釈し、有用な洞察を発見することを目的としています。

これは、どのタイプのクラスター・モデルからも独立した汎用的なポスト・モデリング分析です。

Python コード例:

from spss.ml.clustering.twostep import TwoStep

cluster = TwoStep(). \
    setInputFieldList(["region", "happy", "age"]). \
    setDistMeasure("LOGLIKELIHOOD"). \
    setFeatureImportanceMethod("CRITERION"). \
    setAutoClustering(True)

clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()

親トピック: SPSS 予測分析アルゴリズム