0 / 0
資料の 英語版 に戻る
画面予測値
最終更新: 2024年12月11日
画面予測値
このチュートリアルでは、Feature Selectionノードを使用して、特定の結果を予測する上で最も重要なフィールドを特定するのに役立ちます。 数百あるいは数千の予測変数の集合から,特徴選択ノードはスクリーニングし,ランク付けし,最も重要であろう予測変数を選択する. 最終的には、より速く、より効率的なモデル、つまり、より少ない予測子を使い、より速く実行し、より理解しやすいモデルに行き着くかもしれない。

チュートリアルを試す

このチュートリアルでは、以下のタスクを実行します:

モデラーのフローとデータセットのサンプル

このチュートリアルでは、サンプル・プロジェクトのスクリーニング予測フローを使用します。 使用するデータファイルはcustomer_dbase.csvである。 次の図は、モデラーのフロー例を示しています。

図1: サンプルモデラーの流れ
特徴量選択フローの例
この例では、オファーの 1 つのみに注目して対象として取り上げます。 これは、CHAIDツリー構築ノードを使用して、どの顧客がプロモーションに反応する可能性が最も高いかを記述するモデルを開発する。 ここで次の 2 つの方法を比較します。
  • 特徴量選択なし。 データ・セットのすべての予測値フィールドが CHAID ツリーへの入力として使用されます。
  • 特徴量選択あり特徴選択(Feature Selection)ノードは,ベスト10の予測子を選択するために使用される. これらの予測変数はCHAIDツリーに入力される。

結果として得られた2つのツリーモデルを比較することで、特徴選択がいかに効果的な結果をもたらすかがわかる。

次の画像はサンプルデータセットです。
図2: サンプルデータセット
サンプルデータセット

タスク 1:サンプルプロジェクトを開く

サンプル・プロジェクトには、いくつかのデータ・セットとモデラー・フローのサンプルが含まれています。 サンプル・プロジェクトをまだお持ちでない場合は、チュートリアル・トピックを参照してサンプル・プロジェクトを作成してください。 次に、以下の手順でサンプルプロジェクトを開きます:

  1. Cloud Pak for Dataナビゲーションメニューナビゲーション・メニュー」から、Projects > View all Projetsをc選択します。
  2. SPSS ModelerProjectをクリックします。
  3. アセット」タブをクリックすると、データセットとモデラーフローが表示されます。

チェックポイントのアイコン進捗状況を確認する

次の図は、プロジェクトのAssetsタブを示しています。 これで、このチュートリアルに関連するサンプルモデラーフローで作業する準備ができました。

サンプル・プロジェクト

先頭に戻る

タスク 2: データアセットとタイプノードを調べる

スクリーニング予測にはいくつかのノードがある。 以下の手順に従って、データ・アセットタイプ・ノードを調べます:

  1. アセットタブから、スクリーニング予測モデラーフローを開き、キャンバスがロードされるのを待ちます。
  2. customer_dbase.csvノードをダブルクリックします。 このノードは、プロジェクト内のcustomer_dbase.csvファイルを指すData Assetノードです。
  3. ファイル形式のプロパティを確認します。
  4. オプション:完全なデータセットを表示するには、データのプレビューをクリックします。
  5. Typeノードをダブルクリックする。 これらの各フィールドのRoleの値に注目してほしい:
    • response_01Targetに設定されている
    • response_02response_03、およびcustidNoneに設定されます
    • 他のすべてのフィールドはInputに設定されている
    図3: タイプノード測定レベル
    データ型ノード
  6. 「値の読み込み」をクリックします。
  7. オプション:データ・プレビューをクリックすると、タイプ・プロパティが適用されたデータ・セットが表示されます。
  8. 保存 をクリックします。

チェックポイントのアイコン進捗状況を確認する

次の図はTypeノードを示している。 これでモデルを作る準備ができた。

データ型ノード

先頭に戻る

タスク3:モデルの構築

以下の手順でモデルを作成する:

  1. response_01(Feature Selection)ノードをダブルクリックして、プロパティを表示します。
  2. Build Options(ビルド・オプション)セクションを展開すると、フィールドのスクリーニングや除外に使用される定義済みのルールや基準が表示されます。
    図4: 機能選択 ビルド・オプション
    Feature Selectionノードのビルド・オプション
  3. response_01(フィーチャー選択)ノードにカーソルを合わせ、実行アイコン「実行アイコン」をクリックする。
  4. 出力とモデルペインで、response_01という名前のモデルをクリックして、モデルを表示します。 結果は、予測に役立つと思われる分野を重要度順に並べたものである。 これらのフィールドを検証して、この後のモデル化セッションに使用するフィールドを決定することができます。

    特徴選択なしで結果を比較するには、フローで2つのCHAIDモデリング・ノードを使用する必要があります:1つは特徴選択を使用し、もう1つは使用しません。

  5. With All Fields (CHAID)ノードをダブルクリックしてプロパティを表示します。
    1. Objectives(目的)]で、[Build new model(新しいモデルの構築)]と[Create standard model(標準モデルの作成)]が選択されていることを確認します。
    2. Basicセクションを展開し、Maximum Tree DepthCustomに設定され、レベル数が'5に設定されていることを確認する。
  6. 保存 をクリックします。
  7. Using Top 10 Fields (CHAID)ノードをダブルクリックして、プロパティを表示します
    1. With All Fields (CHAID)ノードと同じプロパティを確認する。
    2. 保存 をクリックします。

チェックポイントのアイコン進捗状況を確認する

次の図はModelingノードを示している。 これでフローを実行し、結果を見る準備ができた。

CHAID ノード

先頭に戻る

タスク4:フローの実行と結果の表示

以下の手順に従ってフローを実行し、特徴選択を行った場合と行わなかった場合の2つのモデルの結果を表示します:

  1. すべてを実行する '実行アイコン をクリックする。 実行しながら、各モデルが構築し終わるのにかかる時間に注目してください。
  2. Outputs and modelsペインで、With All fieldsという名前のモデルをクリックして、結果を表示します。
    1. ツリーダイアグラムのページをクリックします。
    2. ズームアウトしてツリー図の範囲を見る。
    3. モデルの詳細ウィンドウを閉じます。
  3. Outputs and models(出力とモデル)ペインで、Using Top 10 fields(トップ10フィールドを使用)という名前の modelrun をクリックして、結果を表示します。
    1. ツリーダイアグラムのページをクリックします。
    2. ズームアウトしてツリー図の範囲を見る。

    分かりにくい場合もありますが、最初のモデルよりも 2 番目のモデルの方が高速で実行されます。 このデータセットは比較的小さいので、実行時間の差はおそらく数秒であろう。しかし、より大きな実世界のデータセットでは、その差は数分、あるいは数時間と顕著になるかもしれない。 特徴選択を使えば、処理時間を劇的に短縮できるかもしれない。

    その代わりに、ツリー構築アルゴリズムを使って特徴選択を行い、ツリーが最も重要な予測因子を識別できるようにすることもできる。 実際に、CHAID アルゴリズムはこの目的のために使用されることが多く、1 レベルずつツリーを成長させてツリーの深度と複雑性をコントロールすることも可能です。 しかし、Feature Selectionノードの方が高速で使いやすい。 これは1つの速いステップですべての予測因子をランク付けし、最も重要な分野を素早く特定するのに役立ちます。

チェックポイントのアイコン進捗状況を確認する

次の図は、このモデルによるツリー図である。

ビューモデル ツリー図

先頭に戻る

サマリー

また、2 番目のツリーは 1 番目のツリーに比べて、ツリー・ノードも少数です。 そのため理解しやすくなっています。 使用する予測値が少ないほど低コストになります。 つまり、収集、処理、モデルに送信するデータが少なくなります。 計算時間が短縮されます。 この例では、特徴量選択の手順が増えたにも関わらず、モデル構築は予測数が少ない方が速くなりました。 より大きな実世界のデータセットがあれば、時間の節約は大きく増幅されるかもしれない。

使用する予測値が少ないほど、スコアリングはシンプルになります。 例えば、販売促進活動に反応しそうな顧客のプロファイルを 4 つだけ識別します。 予測変数の数が多くなると、モデルをオーバー・フィッティングする危険性があります。 より単純なモデルの方が、他のデータセットに対してより良く一般化できるかもしれない(ただし、この方法を確かめるにはテストが必要だ)。

次のステップ

これで、他のSPSS® Modelerチュートリアルを試す準備ができました。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細