シミュレーションの当てはめノードは、統計分布の候補のセットをデータ内の各フィールドに適合させます。 フィールドに対する各分布の適合は、適合度の基準を使用して評価されます。 シミュレーションの当てはめノードを実行すると、シミュレーション生成ノードが作成されます (既に作成されている場合は、ノードが更新されます)。 各フィールドは、最も適合する分布に割り当てられます。 その後、シミュレーション生成ノードを使用して、フィールドごとにシミュレーション・データを生成することができます。
シミュレーションの当てはめノードはターミナル・ノードですが、このノードによって出力が「出力」パネルに追加されたり、データがエクスポートされたりすることはありません。
シミュレーションの当てはめノードを使用してシミュレーション生成ノードを自動的に作成する
シミュレーションの当てはめノードを初めて実行すると、シミュレーションの当てはめノードへの更新リンクとともにシミュレーション生成ノードが生成されます。 シミュレーションの当てはめノードをもう一度実行すると、更新リンクが削除されている場合のみ、新しいシミュレーション生成ノードが生成されます。 シミュレーションの当てはめノードを使用して、接続されたシミュレーション生成ノードを更新することもできます。 実行結果は、同じフィールドが両方のノードに存在するかによって異なります。また、フィールドがシミュレーション生成ノード内でロック解除されているかどうかによっても異なります。 詳しくは、 Sim Gen ノード を参照してください。
シミュレーションの当てはめノードが持つことができるのは、シミュレーション生成ノードへの更新リンクだけです。 シミュレーション生成ノードへの更新リンクを定義するには、以下の手順を実行します。
- シミュレーションの当てはめノードを右クリックして「更新リンクの定義」を選択します。
- 更新リンクの定義対象となるシミュレーション生成ノードをクリックします。
シミュレーションの当てはめノードとシミュレーション生成ノードの間の更新リンクを削除するには、対象の更新リンクを右クリックして「リンクを削除」を選択します。
分布の適合
統計分布は、変数が取ることができる値の理論的な出現頻度です。 シミュレーションの当てはめノードでは、理論的分布のセットがデータの各フィールドと比較されます。 理論上の分布のパラメーターは、適合度の測定 ( Anderson-Darling 基準または Kolmogorov-Smirnov 基準のいずれか) に従ってデータに最も適合するように調整されます。 シミュレーションの当てはめノードによる分布の適合の結果には、適合された分布、各分布用のパラメーターの最良の推定値、各分布でのデータの適合度が表示されます。 分布の適合の実行中に、数値ストレージ・タイプを持つフィールド間での相関と、カテゴリー分布を持つフィールド間での不測の事態も計算されます。 分布の適合の結果を使用して、シミュレーション生成ノードが作成されます。
- 上流ノードを使用して、欠損値が存在するレコードを削除する
- 上流ノードを使用して、欠損値用の値を代入する
分布が適合する場合、フィールドの役割は考慮されません。 例えば「対象」の役割を持つフィールドは、「入力」、「なし」、「両方」、「データ区分」、「分割」、「度数」、「ID」の役割を持つフィールドと同様に処理されます。
分布の適合の実行時は、フィールドのストレージ・タイプと尺度に応じて、フィールドの処理方法が異なります。 分布の適合時におけるフィールドの処理方法について、以下の表に示します。
ストレージ・タイプ | 測定水準 | |||||
---|---|---|---|---|---|---|
連続 | カテゴリー | フラグ | 名義 | 序数 | 不明 | |
ストリング | 不可能 | カテゴリー分布、ダイス分布、固定分布が適合されます。 | ||||
整数 | ||||||
Real | ||||||
時刻 | すべての分布が適合されます。 相関と不測の事態が計算されます。 | カテゴリー分布が適合されます。 相関は計算されません。 | 2 項分布、負の 2 項分布、ポワソン分布が適合され、相関が計算されます。 | フィールドは無視され、シミュレーション生成ノードには渡されません。 | ||
日付 | ||||||
タイムスタンプ | ||||||
不明 | データにより、適切なストレージ・タイプが決定されます。 |
順序型の尺度を持つフィールドは連続型フィールドと同様に処理され、シミュレーション生成ノードの相関テーブルに含まれます。 2 項分布、負の 2 項分布、ポワソン分布以外の分布を順序型フィールドに適合させる場合、フィールドの尺度を連続型に変更する必要があります。 順序型フィールドの値ごとにラベルが既に定義されている場合、尺度を連続型に変更すると、これらのラベルが失われます。
複数の値を持つフィールドに対する分布の適合の実行時に、単一の値を持つフィールドも同様に処理されます。 時間、日付、またはタイム・スタンプのストレージ・タイプを持つフィールドは、数値として処理されます。
分割フィールドに対する分布の適合
データに分割フィールドが含まれていて、分布の適合を分割ごとに個別に実行する場合、上流の再構成ノードを使用してデータを変換する必要があります。 再構成ノードを使用して、分割フィールドの値ごとに新規フィールドを生成します。 再構成されたこのデータをシミュレーションの当てはめノードで使用して、分布の適合を行うことができます。