0 / 0
資料の 英語版 に戻る
データ準備の自動化
最終更新: 2024年12月11日
データ準備の自動化

このチュートリアルでは、分析のためにデータを準備する例を示します。 データを準備することは、データマイニング・プロジェクトにおいて最も重要なステップの一つであり、伝統的に最も時間のかかるステップの一つである。 Auto Data Prep(オートデータプレパレーション)ノードは、データを分析し、修正点を特定し、問題のあるフィールドや有用でないフィールドを除外し、必要に応じて新しい属性を導き出し、インテリジェントなスクリーニング技術によってパフォーマンスを向上させます。

Auto Data Prepノードを完全に自動化された方法で使用し、ノードが修正を選択して適用することも、変更が加えられる前にプレビューし、それを受け入れるか拒否することもできます。 このノードを使用すると、関係する統計の概念を事前に把握していなくても、データ・マイニング用のデータを迅速かつ容易に準備できます。 デフォルトの設定でノードを動かすと、モデルの構築と得点が速くなる傾向がある。

チュートリアルを試す

このチュートリアルでは、以下のタスクを実行します:

モデラーのフローとデータセットのサンプル

このチュートリアルでは、サンプル・プロジェクトの自動データ準備フローを使用します。 使用するデータファイルはtelco.csvである。 この例は、モデルを構築する際にデフォルトのAuto Data Prepノードの設定を使用することで精度が向上することを示しています。 次の図は、モデラーのフロー例を示しています。

図1: サンプルモデラーの流れ
データの自動準備のサンプル・フロー
次の画像はサンプルデータセットです。
図2: サンプルデータセット
サンプルデータセット

タスク 1:サンプルプロジェクトを開く

サンプル・プロジェクトには、いくつかのデータ・セットとモデラー・フローのサンプルが含まれています。 サンプル・プロジェクトをまだお持ちでない場合は、チュートリアル・トピックを参照してサンプル・プロジェクトを作成してください。 次に、以下の手順でサンプルプロジェクトを開きます:

  1. Cloud Pak for Dataナビゲーションメニューナビゲーション・メニュー」から、Projects > View all Projetsをc選択します。
  2. SPSS ModelerProjectをクリックします。
  3. アセット」タブをクリックすると、データセットとモデラーフローが表示されます。

チェックポイントのアイコン進捗状況を確認する

次の図は、プロジェクトのAssetsタブを示しています。 これで、このチュートリアルに関連するサンプルモデラーフローで作業する準備ができました。

サンプル・プロジェクト

先頭に戻る

タスク 2: データアセットとタイプノードを調べる

自動データ準備にはいくつかのノードがある。 以下の手順に従って、データ・アセットタイプ・ノードを調べます:

  1. Assetsタブから、Automated Data Preparationモデラー・フローを開き、キャンバスがロードされるのを待つ。
  2. telco.csvノードをダブルクリックする。 このノードは、プロジェクト内のtelco.csvファイルを指すData Assetノードです。
  3. ファイル形式のプロパティを確認します。
  4. オプション:完全なデータセットを表示するには、データのプレビューをクリックします。
  5. Typeノードをダブルクリックする。 churnフィールドのメジャーがFlag に設定され、ロールがTarget に設定されていることに注意してください。 他のすべてのフィールドのロールがInputに設定されていることを確認してください。
    図3: 測定レベルと役割を設定する
    測定レベルと役割を設定する
  6. オプション:データ・プレビューをクリックすると、タイプ・プロパティが適用されたデータ・セットが表示されます。

チェックポイントのアイコン進捗状況を確認する

次の図はTypeノードを示している。 これでモデルを作る準備ができた。

データ型ノード

先頭に戻る

タスク3:モデルの構築

あなたは2つのモデルを構築します。1つはデータ準備を自動化しないモデル、もう1つはデータ準備を自動化したモデルです。 以下の手順でモデルを作成する:

  1. Type」ノードに接続されている「No ADP - churn」ノードをダブルクリックしてプロパティを表示する。
    1. モデル設定セクションを展開する
    2. ProcedureBinomial に設定されていることを確認する。
    3. モデル名カスタムに設定され、名前が'No ADP - churnであることを確認する。
      図4: ロジスティック・ノード・モデル設定セクション
      モデルオプションを選択
  2. No ADP - churnノードにカーソルを合わせ、実行アイコン「実行アイコン」をクリックする。
  3. Outputs and modelsペインで、No ADP - churnという名前のモデルをクリックして、結果を表示します。
    1. モデル概要ページを見る。このページは、モデルによって使用される予測フィールドと、予測の正答率を示す。
    2. 分析に含まれるレコードの数と割合を示すケース処理サマリーを表示します。 さらに、1 つ以上の入力フィールドが利用不可の場合に、欠損したケースがある場合は、その数もリストします。また選択されなかったケースの数もリストします。
    3. モデルの詳細を閉じます。
  4. Typeノードに接続されているAuto Data Prepノードをダブルクリックして、そのプロパティを表示する。 Automated Data Preparationは、お客様に代わってデータ準備タスクを処理し、データを分析して修正点を特定し、問題のあるフィールドや有用でない可能性のあるフィールドを除外し、必要に応じて新しい属性を導き出し、インテリジェントなスクリーニング技術によってパフォーマンスを向上させます。
    1. Objectives(目的)セクションでは、デフォルト設定のままで、スピードと精度のバランスをとりながらデータを分析し、準備します。 その他の自動データ準備ノード・プロパティでは、精度を重視する、処理速度を重視する、データ準備の処理ステップの多くを微調整するなどのオプションを指定できます。
      注:既にモデルが存在するため、将来ノードプロパティを調整してフローを再実行する場合は、フローを再実行する前に、まず「Objectives」の「Clear old analysis」をクリックする必要があります。
    2. オプション:データのプレビューをクリックすると、自動データ準備プロパティが適用されたデータセットが表示されます。
    3. キャンセル」をクリックする。
  5. Auto Data Prepノードに接続されているAfter ADP - churnノードをダブルクリックしてプロパティを表示する。
    1. モデル設定セクションを展開する
    2. ProcedureBinomial に設定されていることを確認する。
    3. モデル名カスタムに設定され、名前が'After ADP - churnであることを確認する。
  6. After ADP - churnノードにカーソルを合わせ、実行アイコン「実行アイコン」をクリックする。
  7. Outputs and modelsペインで、After ADP - churnという名前のモデルをクリックして、結果を表示します。
    1. モデル概要ページを見る。このページは、モデルによって使用される予測フィールドと、予測の正答率を示す。
    2. 分析に含まれるレコードの数と割合を示すケース処理サマリーを表示します。 さらに、1 つ以上の入力フィールドが利用不可の場合に、欠損したケースがある場合は、その数もリストします。また選択されなかったケースの数もリストします。
    3. モデルの詳細を閉じます。

チェックポイントのアイコン進捗状況を確認する

以下の画像はモデルの詳細を示している。 これでモデルを比較する準備は整った。

モデルの詳細

先頭に戻る

タスク4:モデルの比較

両方のモデルが設定されたので、以下の手順に従ってモデルを生成し、比較する:

  1. No ADP -LogReg(Analysis)ノードにカーソルを合わせ、実行アイコン '実行アイコン をクリックする。
  2. After ADP -LogReg(Analysis)ノードにカーソルを合わせ、実行アイコン '実行アイコン をクリックする。
  3. 出力とモデル]ペインで、[No ADP -LogRegという名前の出力結果をクリックして結果を表示します。
  4. モデルを比較する:
    1. 比較」をクリックする。
    2. Select outputフィールドで、ADP後-LogRegを選択する。
    派生していないAuto Data Prepモデルの分析は、デフォルト設定の ロジスティック回帰ノードを通してデータを実行するだけで、精度の低いモデル(わずか10.6%)を与えることを示しています。
    図 5. 非 ADP 派生モデルの結果
    非 ADP 派生モデルの結果
    オート・データ・プレパレーション由来のモデルの分析によると、デフォルトのオート・データ・プレパレーション設定を通してデータを実行することで、78.3の正答率を誇る、より正確なモデルが構築されたことがわかる。
    図 6. ADP 派生モデルの結果
    ADP 派生モデルの結果

チェックポイントのアイコン進捗状況を確認する

以下の画像はモデル比較。

モデルの比較

先頭に戻る

サマリー

データの処理を微調整するためにAuto Data Prepノードを実行することで、データを直接操作することなく、より正確なモデルを構築することができました。

もちろん、ある理論の証明や反証に興味があったり、特定のモデルを作りたい場合は、モデルの設定を直接操作するのが有益かもしれない。 しかし、準備する時間が限られていたり、大量のデータがある場合は、Auto Data Prepノードが有利に働くかもしれない。

この例の結果は、トレーニングデータのみに基づいている。 モデルが実世界の他のデータに対してどの程度一般化されるかを評価するために、パーティション・ノードを使用して、テストと検証の目的でレコードのサブセットを保持することができます。

次のステップ

これで、他のSPSS® Modelerチュートリアルを試す準備ができました。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細