0 / 0
資料の 英語版 に戻る
モデルの検証 (SPSS Modeler)

モデルの検証

  1. 各市場で生成されたモデルに関する情報を表示するには、時系列モデル・ナゲットの上にカーソルを移動し、オーバーフロー・メニュー をクリックして、 「モデルの表示」を選択します。
    図1: 市場に対して生成された時系列モデル
    市場に対して生成された時系列モデル
  2. 左側のターゲット列で、市場を選択します。 その後、モデル情報に進みます。 予測値の数 行には、各ターゲットの予測値として使用されたフィールドの数が表示されます。

    モデル情報表のその他の行には、各モデルのさまざまな適合度指標が表示されます。 定常 R2 乗は、ベースライン・モデルよりモデルがどのように優れているかを測定します。 最終モデルが ARIMA(p,d,q)(P,D,Q) の場合、ベースライン・モデルは ARIMA(0,d,0)(0,D,0) です。 最終モデルが指数平滑法モデルの場合、Brown および Holt モデルでは、d2 でほかのモデルでは 1 で、季節の長さが 1 より大きい場合は D1で, それ以外の場合は、D0 です。. 負の定常 R の 2 乗は、検討中のモデルが基準モデルよりも悪いことを意味します。 0 の定常 R2 乗は、モデルが基準モデルと同程度であることを意味し、正の定常 R2 乗は、モデルが基準モデルより優れていることを意味します。

    統計df 線、またパラメーター推定値にある重要度は、Ljung-Box 分析、モデルの残差エラーのランダム性に関連します。 エラーがランダムであるほど、そのモデルは良好です。 統計は Ljung-Box 統計そのものですが、df (自由度) は、特定のターゲットを見積もるときに自由に変更できるモデル・パラメーターの数を示します。

    重要度 は、Ljung-Box 統計量の有意確率値を示し、モデルが正しく指定されているかどうかを示す別の指標を提供します。 0.05 未満の有意確率値は、残差エラーがランダムではないことを示し、モデルでは考慮されていない構造が観測対象の系列にあるということを意味しています。

    「定常 R2 乗」「有意確率」の両方の値を考慮すると、エキスパート・モデラーが Market_3Market_4 に対して選択したモデルは非常に良好です。 Market_1Market_2、および Market_5「有意確率」 の値はすべて 0.05未満です。これは、これらの市場に適したモデルを使用した実験が必要になる可能性があることを示しています。

    さまざまな適合度の追加測定結果が表示されます。 R-Squared 値を使用すると、モデルによって説明される時系列の合計バリエーションを推定します。 この統計の最大値は 1.0 で、この点で良好なモデルといえます。

    RMSE は、ルート平均平方根誤差であり、系列の実際の値が、モデルによって予測される値との差異の大きさの測定は、系列自体に使用されるものと同じ単位で表されます。 これは誤差の尺度であるため、この値はできるだけ低いことが期待されます。 一見すると、Market_2 および Market_3 のモデルは、これまでに確認した統計に関しては妥当ですが、他の 3 つの市場のモデルと比較すると、それほど良好ではありません。

    これらの追加の適合度指標には、平均絶対パーセント誤差 (MAPE) とその最大値 (MAXAPE) が含まれます。 絶対パーセント誤差は、モデル予測レベルから対象系列が変動する量に関する尺度で、パーセント値で表されます。 すべてのモデルで平均値および最大値を検証することで、予測の不確定性についての目安を得ることができます。

    MAPE の値は、すべてのモデルが 1 % 前後の平均的な不確実性を表示することを示します。これは非常に低いです。 MAXAPE 値は、最大絶対パーセント誤差を表示し、予測の最悪のシナリオを想定するために役立ちます。 ここでは、Market_4 が 7% 近い高い数値になっているのみで、ほとんどのモデルの最大パーセント誤差はおよそ 1.8% から 3.7% の範囲内に収まり、非常に低い数値が再び示されています。

    MAE (平均値絶対エラー) の値は、予測エラーの絶対値の平均値を示します。 RMSE 値と同様に、これは、時系列自体に使用される単位と同じ単位で表現されます。 MAXAE は、同じ単位で最大の予測誤差を示し、予測の最悪ケースのシナリオを示します。

    これらの絶対値は興味深いものですが、対象系列がさまざまなサイズの市場の加入者数を表しているため、このケースで役立つパーセント・エラー (MAPE および MAXAPE) の値が役立ちます。

    MAPE および MAXAPE の値は、モデルに対して許容できる不確実性因の量を表していますか。 ここでは明らかに非常に低い値となっています。 許容できるリスクは問題に応じて変化するため、これについてはビジネス・センスを活用する場面です。 適合度統計は許容範囲内に収まると想定して、次は残差エラーを確認します。

    モデル残差に対する自己相関関数 (ACF) および偏自己相関関数 (PACF) の値を検証すると、適合度統計を単に表示するだけでなく、モデルに対するより定量的な洞察が得られます。

    適切に指定された時系列モデルでは、季節性、トレンド、循環性などの重要な因子をはじめ、すべての無作為でない変動が取得されます。 これに該当する場合、どの誤差についても、経時的にそれ自体と相関 (自己相関) させるべきではありません。 自己相関関数のいずれかに有意な構造が見られる場合、それは基礎となるモデルが不完全であることを意味します。

  3. 4 番目の市場では、相関曲線をクリックすると、モデル内の残留エラーに対する自己相関関数 (ACF) および部分自己相関関数 (PACF) の値が表示されます。
    図2: 4 つめの市場の ACF および PACF の値
    4 つめの市場の ACF および PACF の値

    これらのプロットでは、エラー変数の元の値が ( ビルド・オプション - 出力のもとで ) 、デフォルト値の 24 時間まで遅れています。また、元の値と比較して、時間との相関関係があるかどうかを確認します。 理想的には、ACF および PACF のすべてのラグを表す棒が、色の濃い領域内にある必要があります。 しかし、実際には、いくつかのラグが、色の濃い領域外に伸びている場合があります。 これは、例えば、計算時間の短縮のために、いくつかの大きなラグをモデル内に含めようとしなかったためです。 一部のラグは、有意ではなく、モデルから削除されます。 このモデルを今後さらに改善し、これらのラグが冗長であるかどうかを問題にしない場合、これらのプロットは、どのラグが潜在的な予測値であるかに関するヒントとなります。

    これが発生した場合は、下部 (パフ) プロットを確認して、構造が確認されているかどうかを確認する必要があります。 PACF プロットは、時間ポイント間で系列値を制御した後で相関を確認します。

    Market_4 の値はすべて、色の濃い領域内にあるため、引き続き他の市場の値を確認できます。

  4. それぞれの他の市場および合計について、相関曲線 を開きます。

    その他の市場の値はすべて、陰影領域の外側にあるいくつかの値を表示し、以前の 重要度値から何を疑ったかを確認します。 ある時点のこれらの市場に対してさまざまなモデルで実験を行い、より優れた適合度が得られるかを確認する必要がありますが、この例の残りでは、Market_4 モデルから学習できるその他の内容について集中します。

  5. フロー・キャンバスに戻ります。 新しい時系列グラフ・ノードを時系列モデル・ナゲットに接続します。 ノードをダブルクリックすると、そのノードのプロパティーが表示されます。
  6. 個別のパネルにシリーズを表示 オプションを選択解除します。
  7. 「系列」リストで、「Market_4」および「$TS-Market_4」フィールドを追加します。
  8. 最初のローカル市場の実際のデータと予測データの折れ線グラフを生成するには、プロパティーを保存します。 次に、時系列グラフ・ノードの上にカーソルを移動し、オーバーフロー・メニュー をクリックして、 「実行」を選択します。
    予測 ($TS-Market_4) の線が実際のデータの終端以降にどのように伸びるかに注目してください。 これが、この市場の今後 3 カ月間の見込み需要の予測です。
    図3: Market_4 の実際のデータと予測データの時系列
    Market_4 の実際のデータと予測データの時系列

    時系列全体の実際のデータと予測データの線は、グラフ上で密接しており、モデルがこの特定の時系列に対しては信頼できることを示しています。

    この特定の市場に対して信頼できるモデルが得られましたが、その予測はどのような誤差の許容範囲を持つでしょうか。 信頼区間を検証することにより、この指標が得られます。

  9. フロー内の最後の時間プロット・ノード ( Market_4 $TS-Market_4というラベルが付いているもの) をダブルクリックします。
  10. $TSLCI-Market_4」および「$TSUCI-Market_4」フィールドを「系列」リストに追加します。
  11. プロパティーを保存し、ノードを再度実行します。
前と同様のグラフが得られましたが、今回は信頼区間の上限 ($TSUCI) および下限 ($TSLCI) が追加されています。 信頼区分の境界が予測期間中にどのように分岐しているかに注目してください。予測が先の将来に進むほど不確定性が増大する様子を示しています。 ただし、期間が経過するたびに、予測の基礎となる 1 カ月分 (この場合) の実際の使用データが新たに得られます。 実際のシナリオでは、この新しいデータをフローに読み取り、信頼できると分かっているモデルを再適用することができます。
図4: 信頼区分が追加された時系列
信頼区分が追加された時系列
生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細