このチュートリアルでは、将来の販売促進の効果を予測する2つのモデルを構築し、そのモデルを比較します。
コンディション・モニタリングのチュートリアルと同様に、データマイニングのプロセスは、探索、データ準備、トレーニング、テストの各フェーズから構成される。 telco.csv
データファイルのすべてのデータが解約予測に役立つわけではない。 フィルタを使用して、予測因子として使用するために重要であると考えられるデータ(モデルで重要であるとマークされたフィールド)だけを選択できます。
チュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
モデラーのフローとデータセットのサンプル
このチュートリアルでは、サンプルプロジェクトの小売販売促進フローを使用します。 使用したデータファイルはgoods2n.csvである。 次の図は、モデラーのフロー例を示しています。
タスク 1:サンプルプロジェクトを開く
サンプル・プロジェクトには、いくつかのデータ・セットとモデラー・フローのサンプルが含まれています。 サンプル・プロジェクトをまだお持ちでない場合は、チュートリアル・トピックを参照してサンプル・プロジェクトを作成してください。 次に、以下の手順でサンプルプロジェクトを開きます:
- Cloud Pak for Dataの ナビゲーションメニュー「」から、Projects > View all Projetsをc選択します。
- SPSS ModelerProjectをクリックします。
- アセット」タブをクリックすると、データセットとモデラーフローが表示されます。
進捗状況を確認する
次の図は、プロジェクトのAssetsタブを示しています。 これで、このチュートリアルに関連するサンプルモデラーフローで作業する準備ができました。
タスク 2: データ・アセット、派生、およびタイプ・ノードを調べる
小売販売促進にはいくつかのノードがある。 以下の手順に従って、データ・アセット、派生、およびタイプ・ノードを調べます:
データ資産ノード
- AssetsタブからRetail Sales Promotionモデラーフローを開き、キャンバスがロードされるのを待ちます。
- goods1n.csvノードをダブルクリックする。 このノードは、プロジェクト内のgoods1n.csvファイルを指すData Assetノードです。
- ファイル形式のプロパティを確認します。
- データのプレビューをクリックすると、完全なデータセットが表示されます。
- 各レコードには以下の内容が含まれている:
Class
.製品タイプ。Cost
.単価。Promotion
.特定のプロモーションで使われた金額のインデックス。Before
.プロモーション前の収益After
.プロモーション後の収益
2 つの収益フィールド (
Before
とAfter
) は、絶対項で表されています。 しかし、昇格後の(そしておそらくその結果としての)増収の方が、より有益な数字になりそうだ。 - データプレビューとプロパティサイドペインを閉じる。
ノードの作成
- Increase(Derive)ノードをダブルクリックします。 このノードは増収分の価値を導き出す。
- 特に、「式」フィールドの設定を見直してください。このフィールドには、プロモーション前の売上高に対する増加額のパーセンテージを求める数式が含まれています:「
(After - Before) / Before * 100.0
。 - データのプレビューをクリックすると、派生値を含むデータセットが表示されます。
- 増加」欄に注目。
製品の各クラスについて、収益増加と販売促進活動コスト増加の間には、ほとんど線型に近い関係が存在します。 したがって、ディシジョン・ツリーまたはニューラル・ネットワークを使用することで、他の使用可能なフィールドから、十分な精度で収益増加を予測できると考えられます。
- データプレビューとプロパティサイドペインを閉じる。
タイプ・ノード
- Define Types (Type)ノードをダブルクリックします。 このノードは、測定レベル(フィールドが含むデータのタイプ)などのフィールド・プロパティや、モデリングにおけるターゲットまたは入力としての各フィールドの役割を指定する。 測定の尺度は、フィールドのデータの種類を示すカテゴリーです。 ソース・データ・ファイルは3つの異なる測定レベルを使用する:
- 連続フィールド('
Age
フィールドなど)は連続した数値を含む。 Education
フィールドのような)ノミナルフィールドは、2つ以上の明確な値(この場合は'College
または'High school
)を持つ。- 順序フィールド('
Income level
フィールドなど)は、固有の順序を持つ複数の異なる値を持つデータ(この場合は'Low
、'Medium
、'High
)を記述する。各フィールドについて、Typeノードは、各フィールドがモデリングで果たす役割を示す役割も指定する。 フィールド'
Increase
のロールはターゲットに設定されている。target
」は、値を予測したいフィールドである。他のほとんどのフィールドでは、「役割」は「入力」に設定されている。 入力フィールドは、「
predictors
」と呼ばれることもあり、また、その値がモデリングアルゴリズムによってターゲットフィールドの値を予測するために使用されるフィールドである。After
フィールドの役割はNoneに設定されているため、このフィールドはモデリングアルゴリズムでは使用されない。
- 連続フィールド('
- オプション:データのプレビューをクリックすると、派生値を含むデータセットが表示されます。
進捗状況を確認する
次の図はTypeノードを示している。 これでモデルを生成し、比較する準備ができた。
タスク3:モデルの生成と比較
フローは、ニューラル・ネットワークとディシジョン・ツリーを学習し、この収益増加の予測を行います。 以下の手順に従って、2つのモデルを生成する:
モデルの生成
- Increase (Neural net)ノードをダブルクリックしてプロパティを確認する。
- Basicsセクションを展開すると、Multilayer Perceptron(多層パーセプトロン)がモデルタイプであることがわかります。 この特性は、ネットワークが隠れ層を通して予測子をターゲットにどのように接続するかを決定する。 多層パーセプトロンは、より複雑な関係を可能にするが、その代償として学習とスコアリングの時間が長くなる可能性がある。
- モデルオプションのセクションを展開して、評価と採点のプロパティを見る。
- Increase(C&Rツリー)ノードをダブルクリックしてプロパティを表示します。
- Run all ' をクリックし、モデルナゲットが生成されるのを待ちます。
- 増加(C&Rツリー)モデルナゲットを増加(ニューラルネット)に接続する。
- 分析ノードを追加します:
- パレットから、Outputsセクションを展開する。
- 分析ノードをキャンバスにドラッグします。
- 増加(ニューラルネット)モデル・ナゲットを分析ノードに接続する。
- データセットを変更し、分析に別のデータを使用する:
- goods1n.csvノードをダブルクリックしてプロパティを表示します。
- CV lickChangeデータセット。
- データ資産 >GOODS2n.csv に移動する。
- 「選択」をクリックします。
- 保存 をクリックします。
- 分析ノードにカーソルを合わせ、実行アイコン「」をクリックする。
- Outputs and models(出力とモデル)ペインで、Analysis(分析)という名前の出力をクリックして結果を表示します。
分析出力、特に予測された増加分と正解の間の線形相関から、訓練されたシステムが高い成功率で収益の増加を予測していることがわかります。
さらに詳細な検証では、学習済みのシステムが比較的大きな誤差を生成したケースに注目できます。 このような誤差は、予測される収益の増加と実際の増加とをプロットすることで特定できるかもしれない。 その後、SPSS Modelerのインタラクティブなグラフィックを使用して、グラフ上で外れ値を選択し、その特性から、精度を向上させるためにデータ記述や学習プロセスを調整することができるかもしれません。
進捗状況を確認する
次の画像はAnalysisノードからの出力です。
サマリー
この例では、将来の販売促進の効果を予測する方法を示した。 状態監視の例と同様に、データマイニングプロセスは、探索、データ準備、トレーニング、テストの各フェーズで構成される。
次のステップ
これで、他のSPSS® Modelerチュートリアルを試す準備ができました。