TwoStep クラスター・ノードでは、一種のクラスター分析が行われます。 開始時にグループの性質がわからない場合に、このノードを使用してデータセットを異なるグループにクラスター化できます。 Kohonen ノードや K-Means ノードのように、TwoStep クラスター・モデルも対象フィールドを使用しません。 TwoStep クラスターでは、結果が予測されるのではなく、入力フィールドのセットのパターンが明らかにされます。 レコードは、1 つのグループまたはクラスター内のレコード同士がよく似た特性を持ち、異なるグループのレコードが互いに類似しないように分類されます。
TwoStep クラスターは、2 段階のクラスター化方法です。 最初のステップでは、データを 1 度通過させて、元の入力データを管理可能な一連のサブクラスターに圧縮します。 2 番目のステップでは、階層クラスター化方法を使用して、データを再度通過させることなく、サブクラスターをより大きなクラスターに結合させていきます。階層クラスター化には、事前にクラスター数を選択する必要がないという利点があります。 多くの階層クラスター化方法では、各レコードを開始クラスターとして開始され、結合を繰り返して大きなクラスターが生成されます。 通常、この方法では、大量のデータを扱うとデータセットが破壊されることがあります。 TwoStep では、事前にクラスター化を行うので、大きなデータセットでも高速に階層クラスター化を実行できます。
要件。 TwoStep クラスター・モデルをトレーニングするには、役割が Input
に設定された 1 つ以上のフィールドが必要です。 役割が Target
、 Both
、または None
に設定されているフィールドは無視されます。 TwoStep クラスターのアルゴリズムは、欠損値を扱いません。 空白の入力フィールドがあるレコードは無視してモデルが作成されます。
利点 TwoStep クラスター・ノードでは、異なるフィールド・タイプが混ざっていてもかまわないため、大きなデータ・セットを効率的に処理できます。 また、複数のクラスター解を検定して最適な解を選択できるため、最初に必要なクラスター数を指定する必要がありません。 TwoStep クラスターでは、外れ値 (結果に悪影響を及ぼす可能性がある極端なケース) が除外されるように設定することができます。