評価ノードを使用すると、簡単に予測モデルを評価および比較して、アプリケーションに最適なモデルを選択できます。 評価グラフでは、各モデルの特定の結果の予測方法が示されます。 また評価グラフでは、レコードは予測フィールドと予測の確信度に基づいてソートされて等しいサイズのグループ (分位) に分割され、分位ごとにビジネスに関する基準の値が高い方から順番に作図されます。 プロットには、複数のモデルが異なる線で示されます。
結果は、特定の値または値の範囲をヒットとして定義することで処理されます。 通常、ヒットはある種の成功 (顧客への販売など) や対象となるイベント (特定の医療診断など) を示します。 ノード・プロパティーの「オプション」セクションで、ヒットの基準を定義することができます。または、以下のようにデフォルトのヒット基準を使用することもできます。
- フラグ型出力フィールドの場合、ヒットはそのまま真の値に対応しています。
- 名義型出力フィールドの場合は、セットの最初の値がヒットを定義します。
- 連続型出力フィールドの場合、フィールドの範囲の中間より大きい値がヒットになります。
評価グラフには 6 種類あり、それぞれ強調される評価基準は異なります。
ゲイン・グラフ
ゲインは、各分位で発生した総ヒット数の割合として定義されます。 ゲインは (number of hits in quantile / total number of hits) ×
100%
として計算されます。
リフト・グラフ
リフトでは、各分位でヒットしたレコードの割合 (パーセント) が、トレーニング・データ内の全ヒットの割合と比較されます。 これは、 (hits in quantile /
records in quantile) / (total hits / total records)
として計算されます。
回答グラフ
回答は、分位内のヒットしたレコードの単純な割合です。 応答は (hits in quantile / records in quantile) × 100%
として計算されます。
利益グラフ
プロフィットは、各レコードの収益から、そのレコードのコストを引いた値と等しくなります。 分位のプロフィットは、その分位の全レコードのプロフィットを合計したものです。 収益はヒットだけに適用されることを前提としますが、コストはすべてのレコードに適用されます。 また、プロフィットとコストは固定にすることも、データのフィールドで定義することもできます。 プロフィットは (sum of revenue for records in quantile − sum of costs for records in
quantile)
として計算されます。
ROI グラフ
ROI (投資収益率) は、収益とコストを定義するという点でプロフィットに似ています。 ROI とは、分位のプロフィットとコストの比較です。 ROI は (profits for quantile / costs for quantile) × 100%
として計算されます。
ROC グラフ
ROC (受信者操作特性) はバイナリ分類子と併用する必要があります。 ROC を使用すると、 分類子の視覚化、編成、パフォーマンスに基づく選択を行うことができます。 ROC グラフは、 分類子の真陽性率 (感度) を偽陽性率に対してプロットします。 ROC グラフは、 利得 (真陽性) とコスト (偽陽性) の相対的なトレードオフを図示します。 真陽性は、 ヒットでありかつヒットと分類されたインスタンスです。 したがって、真陽性率は「真陽性の数/実際にヒットであったインスタンスの数」で計算されます。 偽陽性は、 外れであるがヒットと分類されたインスタンスです。 したがって、偽陽性率は「偽陽性の数/実際に外れであったインスタンスの数」で計算されます。
評価グラフは、各ポイントが対応する分位とそれより上位にあるすべての分位の値と等しくなるように、累積で表すこともできます。 累積グラフは、通常モデルの全体的な性能を表す場合場合に役に立ちます。一方、非累積グラフは、そのモデルにおける特定の問題領域を表す場合に役に立ちます。