このチュートリアルでは、分析のためにデータを準備する例を示します。 データを準備することは、データマイニング・プロジェクトにおいて最も重要なステップの一つであり、伝統的に最も時間のかかるステップの一つである。 Auto Data Prep(オートデータプレパレーション)ノードは、データを分析し、修正点を特定し、問題のあるフィールドや有用でないフィールドを除外し、必要に応じて新しい属性を導き出し、インテリジェントなスクリーニング技術によってパフォーマンスを向上させます。
Auto Data Prepノードを完全に自動化された方法で使用し、ノードが修正を選択して適用することも、変更が加えられる前にプレビューし、それを受け入れるか拒否することもできます。 このノードを使用すると、関係する統計の概念を事前に把握していなくても、データ・マイニング用のデータを迅速かつ容易に準備できます。 デフォルトの設定でノードを動かすと、モデルの構築と得点が速くなる傾向がある。
チュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
モデラーのフローとデータセットのサンプル
このチュートリアルでは、サンプル・プロジェクトの自動データ準備フローを使用します。 使用するデータファイルはtelco.csvである。 この例は、モデルを構築する際にデフォルトのAuto Data Prepノードの設定を使用することで精度が向上することを示しています。 次の図は、モデラーのフロー例を示しています。
タスク 1:サンプルプロジェクトを開く
サンプル・プロジェクトには、いくつかのデータ・セットとモデラー・フローのサンプルが含まれています。 サンプル・プロジェクトをまだお持ちでない場合は、チュートリアル・トピックを参照してサンプル・プロジェクトを作成してください。 次に、以下の手順でサンプルプロジェクトを開きます:
- Cloud Pak for Dataの ナビゲーションメニュー「」から、Projects > View all Projetsをc選択します。
- SPSS ModelerProjectをクリックします。
- アセット」タブをクリックすると、データセットとモデラーフローが表示されます。
進捗状況を確認する
次の図は、プロジェクトのAssetsタブを示しています。 これで、このチュートリアルに関連するサンプルモデラーフローで作業する準備ができました。
タスク 2: データアセットとタイプノードを調べる
自動データ準備にはいくつかのノードがある。 以下の手順に従って、データ・アセットと タイプ・ノードを調べます:
- Assetsタブから、Automated Data Preparationモデラー・フローを開き、キャンバスがロードされるのを待つ。
- telco.csvノードをダブルクリックする。 このノードは、プロジェクト内のtelco.csvファイルを指すData Assetノードです。
- ファイル形式のプロパティを確認します。
- オプション:完全なデータセットを表示するには、データのプレビューをクリックします。
- Typeノードをダブルクリックする。
churn
フィールドのメジャーがFlag に設定され、ロールがTarget に設定されていることに注意してください。 他のすべてのフィールドのロールがInputに設定されていることを確認してください。 - オプション:データ・プレビューをクリックすると、タイプ・プロパティが適用されたデータ・セットが表示されます。
進捗状況を確認する
次の図はTypeノードを示している。 これでモデルを作る準備ができた。
タスク3:モデルの構築
あなたは2つのモデルを構築します。1つはデータ準備を自動化しないモデル、もう1つはデータ準備を自動化したモデルです。 以下の手順でモデルを作成する:
- Type」ノードに接続されている「No ADP - churn」ノードをダブルクリックしてプロパティを表示する。
- モデル設定セクションを展開する
- ProcedureがBinomial に設定されていることを確認する。
- モデル名が カスタムに設定され、名前が'No ADP - churnであることを確認する。
- No ADP - churnノードにカーソルを合わせ、実行アイコン「」をクリックする。
- Outputs and modelsペインで、No ADP - churnという名前のモデルをクリックして、結果を表示します。
- モデル概要ページを見る。このページは、モデルによって使用される予測フィールドと、予測の正答率を示す。
- 分析に含まれるレコードの数と割合を示すケース処理サマリーを表示します。 さらに、1 つ以上の入力フィールドが利用不可の場合に、欠損したケースがある場合は、その数もリストします。また選択されなかったケースの数もリストします。
- モデルの詳細を閉じます。
- Typeノードに接続されているAuto Data Prepノードをダブルクリックして、そのプロパティを表示する。 Automated Data Preparationは、お客様に代わってデータ準備タスクを処理し、データを分析して修正点を特定し、問題のあるフィールドや有用でない可能性のあるフィールドを除外し、必要に応じて新しい属性を導き出し、インテリジェントなスクリーニング技術によってパフォーマンスを向上させます。
- Objectives(目的)セクションでは、デフォルト設定のままで、スピードと精度のバランスをとりながらデータを分析し、準備します。 その他の自動データ準備ノード・プロパティでは、精度を重視する、処理速度を重視する、データ準備の処理ステップの多くを微調整するなどのオプションを指定できます。注:既にモデルが存在するため、将来ノードプロパティを調整してフローを再実行する場合は、フローを再実行する前に、まず「Objectives」の「Clear old analysis」をクリックする必要があります。
- オプション:データのプレビューをクリックすると、自動データ準備プロパティが適用されたデータセットが表示されます。
- キャンセル」をクリックする。
- Objectives(目的)セクションでは、デフォルト設定のままで、スピードと精度のバランスをとりながらデータを分析し、準備します。 その他の自動データ準備ノード・プロパティでは、精度を重視する、処理速度を重視する、データ準備の処理ステップの多くを微調整するなどのオプションを指定できます。
- Auto Data Prepノードに接続されているAfter ADP - churnノードをダブルクリックしてプロパティを表示する。
- モデル設定セクションを展開する
- ProcedureがBinomial に設定されていることを確認する。
- モデル名が カスタムに設定され、名前が'After ADP - churnであることを確認する。
- After ADP - churnノードにカーソルを合わせ、実行アイコン「」をクリックする。
- Outputs and modelsペインで、After ADP - churnという名前のモデルをクリックして、結果を表示します。
- モデル概要ページを見る。このページは、モデルによって使用される予測フィールドと、予測の正答率を示す。
- 分析に含まれるレコードの数と割合を示すケース処理サマリーを表示します。 さらに、1 つ以上の入力フィールドが利用不可の場合に、欠損したケースがある場合は、その数もリストします。また選択されなかったケースの数もリストします。
- モデルの詳細を閉じます。
進捗状況を確認する
以下の画像はモデルの詳細を示している。 これでモデルを比較する準備は整った。
タスク4:モデルの比較
両方のモデルが設定されたので、以下の手順に従ってモデルを生成し、比較する:
- No ADP -LogReg(Analysis)ノードにカーソルを合わせ、実行アイコン ' をクリックする。
- After ADP -LogReg(Analysis)ノードにカーソルを合わせ、実行アイコン ' をクリックする。
- 出力とモデル]ペインで、[No ADP -LogRegという名前の出力結果をクリックして結果を表示します。
- モデルを比較する:
- 比較」をクリックする。
- Select outputフィールドで、ADP後-LogRegを選択する。
派生していないAuto Data Prepモデルの分析は、デフォルト設定の ロジスティック回帰ノードを通してデータを実行するだけで、精度の低いモデル(わずか10.6%)を与えることを示しています。オート・データ・プレパレーション由来のモデルの分析によると、デフォルトのオート・データ・プレパレーション設定を通してデータを実行することで、78.3の正答率を誇る、より正確なモデルが構築されたことがわかる。
進捗状況を確認する
以下の画像はモデル比較。
サマリー
データの処理を微調整するためにAuto Data Prepノードを実行することで、データを直接操作することなく、より正確なモデルを構築することができました。
もちろん、ある理論の証明や反証に興味があったり、特定のモデルを作りたい場合は、モデルの設定を直接操作するのが有益かもしれない。 しかし、準備する時間が限られていたり、大量のデータがある場合は、Auto Data Prepノードが有利に働くかもしれない。
この例の結果は、トレーニングデータのみに基づいている。 モデルが実世界の他のデータに対してどの程度一般化されるかを評価するために、パーティション・ノードを使用して、テストと検証の目的でレコードのサブセットを保持することができます。
次のステップ
これで、他のSPSS® Modelerチュートリアルを試す準備ができました。