データ区分ノードは、モデル構築の学習、テスト、および検証の各ステージ用に、データを独立したサブセット (サンプル) に分割するフィールドを生成するために使用されます。 1 組のサンプルをモデルの生成に使用し、別の組のサンプルで生成したモデルをテストすることにより、そのモデルが、このデータに似た性質を持つより大きなデータ・セットにどの程度適用できるかについての良い目安を得ることができます。
データ区分ノードは、役割が 「データ区分」 に設定された名義型フィールドを生成します。 適当なフィールドが既に存在している場合、データ型ノードを使用すると、そのフィールドをデータ区分として指定できます。 この場合、新しいデータ区分ノードは必要ありません。 2 つまたは 3 つの値を持つインスタンス化された設定フィールドをデータ区分として使用できますが、名義型フィールドは使用できません。
単一のフロー内で複数のデータ区分フィールドを定義できますが、その場合、データ分割を使用する各モデル作成ノードごとにデータ区分フィールドを 1 つだけ選択しなければなりません。 (1 つのデータ区分だけが存在している場合、データ分割を有効にすると、そのデータ区分が必ず自動的に使用されます)。
データ範囲や場所などの他のいくつかの基準に基づいてデータ区分フィールドを生成する場合、フィールド作成ノードを使用できます。 詳しくは、 フィールド作成ノード を参照してください。
例。 RFM フローを構築して、以前のマーケティング・キャンペーンに肯定的に応答した最近の顧客を識別する場合、販売会社のマーケティング部門ではデータ区分ノードを使用して、データを学習用データ区分および検定用データ区分に分割します。