0 / 0
資料の 英語版 に戻る
シミュレーションの当てはめノード
最終更新: 2024年7月05日
シミュレーションの当てはめノード (SPSS Modeler)

シミュレーションの当てはめノードは、統計分布の候補のセットをデータ内の各フィールドに適合させます。 フィールドに対する各分布の適合は、適合度の基準を使用して評価されます。 シミュレーションの当てはめノードを実行すると、シミュレーション生成ノードが作成されます (既に作成されている場合は、ノードが更新されます)。 各フィールドは、最も適合する分布に割り当てられます。 その後、シミュレーション生成ノードを使用して、フィールドごとにシミュレーション・データを生成することができます。

シミュレーションの当てはめノードはターミナル・ノードですが、このノードによって出力が「出力」パネルに追加されたり、データがエクスポートされたりすることはありません。

注: 履歴データが散在している (つまり、欠損値が多い) 場合、適合する成分が、分布をデータに適合させるために十分な有効な値を見つけることが困難な場合があります。 データがまばらな場合、まばらなフィールドを削除するか (不要な場合)、欠損値に代入してから、適合を行う必要があります。 データ検査ノードの「品質」オプションを使用すると、完全なレコードの数を確認したり、まばらなフィールドを特定したり、データの補完方法を選択したりすることができます。 分布の適合用のレコード数が不足している場合、バランス・ノードを使用してレコード数を増やすことができます。

シミュレーションの当てはめノードを使用してシミュレーション生成ノードを自動的に作成する

シミュレーションの当てはめノードを初めて実行すると、シミュレーションの当てはめノードへの更新リンクとともにシミュレーション生成ノードが生成されます。 シミュレーションの当てはめノードをもう一度実行すると、更新リンクが削除されている場合のみ、新しいシミュレーション生成ノードが生成されます。 シミュレーションの当てはめノードを使用して、接続されたシミュレーション生成ノードを更新することもできます。 実行結果は、同じフィールドが両方のノードに存在するかによって異なります。また、フィールドがシミュレーション生成ノード内でロック解除されているかどうかによっても異なります。 詳しくは、 Sim Gen ノード を参照してください。

シミュレーションの当てはめノードが持つことができるのは、シミュレーション生成ノードへの更新リンクだけです。 シミュレーション生成ノードへの更新リンクを定義するには、以下の手順を実行します。

  1. シミュレーションの当てはめノードを右クリックして「更新リンクの定義」を選択します。
  2. 更新リンクの定義対象となるシミュレーション生成ノードをクリックします。

シミュレーションの当てはめノードとシミュレーション生成ノードの間の更新リンクを削除するには、対象の更新リンクを右クリックして「リンクを削除」を選択します。

分布の適合

統計分布は、変数が取ることができる値の理論的な出現頻度です。 シミュレーションの当てはめノードでは、理論的分布のセットがデータの各フィールドと比較されます。 理論上の分布のパラメーターは、適合度の測定 ( Anderson-Darling 基準または Kolmogorov-Smirnov 基準のいずれか) に従ってデータに最も適合するように調整されます。 シミュレーションの当てはめノードによる分布の適合の結果には、適合された分布、各分布用のパラメーターの最良の推定値、各分布でのデータの適合度が表示されます。 分布の適合の実行中に、数値ストレージ・タイプを持つフィールド間での相関と、カテゴリー分布を持つフィールド間での不測の事態も計算されます。 分布の適合の結果を使用して、シミュレーション生成ノードが作成されます。

すべての分布をデータに適合させる前に、最初の 1000 件のレコードに欠損値があるかどうかが検証されます。 欠損値が多すぎる場合、分布の適合を行うことはできません。 その場合、以下に示す方法のどれが適切かを判断する必要があります。
  • 上流ノードを使用して、欠損値が存在するレコードを削除する
  • 上流ノードを使用して、欠損値用の値を代入する
分布の適合を行っても、ユーザー欠損値は除外されません。 データにユーザー欠損値が存在し、これらのユーザー欠損値を分布の適合から除外する場合は、それらの欠損値をシステム欠損値として設定する必要があります。

分布が適合する場合、フィールドの役割は考慮されません。 例えば「対象」の役割を持つフィールドは、「入力」「なし」「両方」「データ区分」「分割」「度数」「ID」の役割を持つフィールドと同様に処理されます。

分布の適合の実行時は、フィールドのストレージ・タイプと尺度に応じて、フィールドの処理方法が異なります。 分布の適合時におけるフィールドの処理方法について、以下の表に示します。

表 1. フィールドのストレージ・タイプと尺度に応じた分布の適合
ストレージ・タイプ     測定水準      
  連続 カテゴリー フラグ 名義 序数 不明
ストリング 不可能   カテゴリー分布、ダイス分布、固定分布が適合されます。      
整数          
Real          
時刻 すべての分布が適合されます。 相関と不測の事態が計算されます。 カテゴリー分布が適合されます。 相関は計算されません。   2 項分布、負の 2 項分布、ポワソン分布が適合され、相関が計算されます。 フィールドは無視され、シミュレーション生成ノードには渡されません。
日付          
タイムスタンプ          
不明   データにより、適切なストレージ・タイプが決定されます。    

順序型の尺度を持つフィールドは連続型フィールドと同様に処理され、シミュレーション生成ノードの相関テーブルに含まれます。 2 項分布、負の 2 項分布、ポワソン分布以外の分布を順序型フィールドに適合させる場合、フィールドの尺度を連続型に変更する必要があります。 順序型フィールドの値ごとにラベルが既に定義されている場合、尺度を連続型に変更すると、これらのラベルが失われます。

複数の値を持つフィールドに対する分布の適合の実行時に、単一の値を持つフィールドも同様に処理されます。 時間、日付、またはタイム・スタンプのストレージ・タイプを持つフィールドは、数値として処理されます。

分割フィールドに対する分布の適合

データに分割フィールドが含まれていて、分布の適合を分割ごとに個別に実行する場合、上流の再構成ノードを使用してデータを変換する必要があります。 再構成ノードを使用して、分割フィールドの値ごとに新規フィールドを生成します。 再構成されたこのデータをシミュレーションの当てはめノードで使用して、分布の適合を行うことができます。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細