クイック・スタート: SPSS Modeler を使用したモデルを作成する

SPSS Modelerを使用して、モデルを作成、トレーニング、およびデプロイできます。 SPSS Modelerについて読み、ビデオを見て、初心者向けのチュートリアルに従い、コーディングは必要ありません。

必須サービス Watson Studio ( SPSS Modelerを含む)

基本的なワークフローには、以下のタスクが含まれます:

  1. プロジェクトを作成する プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
  2. SPSS Modeler フローをプロジェクトに追加します。
  3. キャンバス上のノードを構成し、フローを実行します。
  4. モデルの詳細を確認し、モデルを保存します。
  5. モデルをデプロイしてテストします。

SPSS Modeler について読む

SPSS Modeler フローを使用すると、ビジネスの専門知識を活用して予測モデルを迅速に開発し、それらをビジネス・オペレーションにデプロイして、意思決定を改善させることができます。 このフローは、長年の実績を持つ SPSS Modeler クライアント・ソフトウェアをベースとして設計され、業界標準の CRISP-DM モデルを使用しています。このフローのインターフェースは、データの設定から業務の改善に至るまで、データ・プロセス・マイニングの全体をサポートしています。

SPSS Modeler には、マシン学習、人工知能、および統計に基づいたさまざまなモデル作成方法が用意されています。 ノード・パレットを利用して、データから新しい情報を引き出したり、予測モデルを作成することができます。 各手法によって、利点や適した問題の種類が異なります。

SPSS Modeler の詳細をさらに読む

モデルを構築する他の方法についてはこちら

SPSS Modeler を使用したモデルの作成に関するビデオを見る

ビデオを見る このビデオを見て、 SPSS Modeler フローを作成して実行し、機械学習モデルをトレーニングする方法を確認してください。

このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。

SPSS Modeler を使用してモデルを作成するチュートリアルを試す

このチュートリアルでは、以下を行います。

  • プロジェクトの作成
  • ギャラリーからのデータ・セットを追加する
  • 新規 SPSS Modeler フローを作成する
  • SPSS Modeler フローを実行してモデルをトレーニングする
  • モデルを探索とテストする
  • デプロイメント・スペースへモデルをデプロイする

このチュートリアルを完了するための所要時間は約 30 分です。

データの例

このチュートリアルで使用されるデータ・セットは、カリフォルニア大学アーバイン校のデータ・セットで、一定期間の入院患者を基にした大規模な研究の結果である。 このモデルは、慢性腎臓疾患の予測に役立つ 3 つの重要な要因を使用します。

ステップ 1: プロジェクトを作成する

{: #step1} SPSS Modeler フローを保存するためのプロジェクトが必要です。

  1. 既存のプロジェクトをを持っている場合は、それを開きます。 既存のプロジェクトを持っていない場合は、ホーム・ページで プロジェクトの作成 をクリックするか、または プロジェクト ページで 新規プロジェクト をクリックしてください。
  2. 「空のプロジェクトの作成」を選択します。
  3. プロジェクトの作成 画面で、プロジェクトの名前と説明 (オプション) を追加します。
  4. 既存の オブジェクト・ストレージ・サービス・インスタンス {: new_window} を選択するか、または新規作成します。
  5. 「作成」をクリックします。

詳細について、またはビデオを見るには、 プロジェクトの作成を参照してください。

ステップ 2: ギャラリーからデータ・セットを追加する

{: #step2} このチュートリアルで使用するデータ・セットは、ギャラリーで使用できます。

  1. ギャラリーUCI ML Repository:慢性腎臓病データセット {: new_window} にアクセスします。
  2. プレビュー」をクリックします。 この分析の一環として利用できる慢性腎臓疾患の予測に役立つ重要な要因として、被験者の年齢、血清クレアチニン検査結果、糖尿病検査結果の 3 つがあります。 クラス値は、患者が以前に腎臓病の診断を受けたことがあるかどうかを示します。
  3. プロジェクトに追加をクリックしてください。
  4. リストからプロジェクトを選択し、 追加をクリックしてください。
  5. プロジェクトの表示をクリックしてください。
  6. プロジェクトの 資産 ページで、 UCI ML Repository Chronic Kidney Disease Data Set.csv ファイルを見つけます。

ステップ 3: SPSS Modeler フローを作成する

{: #step3} 次に、 SPSS Modeler フローをプロジェクトに追加します。

  1. プロジェクトに追加をクリックし、 Modeler フローを選択してください。
  2. フローの名前と説明を入力してください。
  3. ランタイム定義の場合は、 デフォルト SPSS Modeler S 定義を受け入れます。
  4. 「作成」をクリックします。 これにより、フローの作成に使用するフロー・エディターが開きます。

ステップ 4: SPSS Modeler フローへのノードの追加

{: #step4} データをロードした後、データを変換する必要があります。 単純なフローを作成するには、トランスフォーマーと推定法をキャンバスにドラッグし、それらをデータ・ソースに接続します。 パレットから以下のノードを使用します:

  • データ資産: プロジェクトから CSV ファイルをロードします
  • データ区分: データを学習セグメントとテスト・セグメントに分割します
  • タイプ: データ・タイプを設定します。 これを使用して、 class フィールドを target タイプとして指定します。
  • C5.0: 分類アルゴリズム
  • 分析: モデルを表示し、その正確度を確認します
  • 表: 予測を使用したデータのプレビュー

  • インポート セクションから、 データ資産 ノードをキャンバスにドラッグします。

    1. データ資産 ノードをダブルクリックして、データ・セットを選択してください。
    2. UCI ML Repository Chronic Kidney Disease Data Set.csvを選択してください。
    3. 「選択」をクリックします。
    4. データ資産のプロパティーを表示します。
    5. 「保存」をクリックします。
  • フィールド操作 セクションから、 パーティション ノードをキャンバスにドラッグします。
    1. データ資産 ノードを パーティション ノードに接続します。
    2. パーティション ノードをダブルクリックして、そのプロパティーを表示します。 デフォルトのデータ区分では、データの半分をトレーニング用に、残りの半分をテスト用に分割しています。
    3. 「保存」をクリックします。
  • フィールド操作 セクションから、 タイプ ノードをキャンバスにドラッグします。
    1. パーティション ノードを タイプ ノードに接続します。
    2. タイプ ノードをダブルクリックして、そのプロパティーを表示します。 データ型ノードは、各フィールドの測定のレベルを指定します。 このソース・データ・ファイルでは、4 つの異なる測定レベル (連続型、カテゴリー型、名義型、順序型、フラグ型) を使用しています。
    3. class フィールドを検索します。 各フィールドの役割に対して、各フィールドがモデリングにおいてどのような役割を果たすかを示します。 class 役割目標 (予測するフィールド) に変更します。
    4. 「保存」をクリックします。
  • モデリング セクションから、 C5.0 ノードをキャンバスにドラッグします。
  • タイプ ノードを C5.0 ノードに接続します。
    1. C5.0 ノードをダブルクリックして、そのプロパティーを表示します。 デフォルトでは、 C5.0 アルゴリズムはデシジョン・ツリーが作成します。 C5.0 モデルは、最大の情報ゲインを提供するフィールドに基づいてサンプルを分割することによって作業します。 最初の分割によって定義された各サブサンプルは、通常は別のフィールドに基づいて再度分割され、サブサンプルがそれ以上分割できなくなるまでプロセスが繰り返されます。 最後に、最下位レベルの分割が再検討され、モデルの価値に大きく寄与しない分割が削除されます。
    2. カスタム・フィールド・ロールの使用を確認します。
    3. 対象の場合は、 クラスを選択してください。
    4. 入力 セクションで、 列の追加をクリックしてください。
    5. 年齢scdmを選択してください。
    6. 「OK」をクリックします。
    7. 「保存」をクリックします。

フローの作成が完了すると、以下の図のようになります:

フローはデータ資産ノード、データ区分ノード、データ型ノード、および C5.0 クラス・ノードを示す

ステップ 5: SPSS Modeler フローを実行し、モデルの詳細を探索する

{: #step5} フローを設計したので、フローを実行し、ツリー・ダイアグラムを調べて決定点を確認できます。

  1. C5.0 ノードを右クリックし、 実行を選択してください。 フローを実行すると、キャンバス上に新しいモデル・ナゲットが生成されます。
  2. モデル・ナゲットを右クリックし、 モデルの表示 を選択してモデルの詳細を表示します。
  3. モデルの要約を提供する モデル情報 を表示します。
  4. 上位の決定ルールをクリックしてください。 テーブルには、さまざまな入力フィールドの値に基づいて個々のレコードを下位ノードに割り当てるために使用された一連のルールが表示されます。
  5. 特徴量の重要度をクリックしてください。 グラフには、モデルを推定する際の各予測値の相対的な重要度が表示されます。 このことから、血清クレアチニンが最も重要な因子であり、糖尿病が次に重要な因子であることがわかります。
  6. ツリー図をクリックしてください。 同じモデルがツリーの形式で表示され、各デシジョン・ポイントにノードが表示されます。
    1. ブランチにラベルを表示 オプションを選択してください。
    2. ノード 0 の上にカーソルを移動すると、データ・セット内のすべてのレコードのまとめが表示されます。 データ・セット内の症例の 40% は、腎臓病と診断されていないと分類されています。 ツリーは、原因となる可能性がある要因に関する追加のヒントを提供できます。
    3. ノード 0 から派生した 2 つのブランチに注意してください。これは、 血清クレアチニンによる分岐を示しています。
    4. ノード 6 の上にカーソルを移動すると、血清クレアチニンが 1.25 より大きいレコードが表示されます。 この場合、100% の患者が腎臓病の診断で陽性となる。
    5. ノード 1 の上にカーソルを移動すると、血清クレアチニンが 1.25 以下または 1.25 に等しいレコードが表示されます。 これらの患者の約 80% は腎臓疾患の陽性診断を受けていないが、血清クレアチニンが低い患者の約 20% は依然として腎臓疾患と診断されている。
    6. ノード 1 からのブランチは、 糖尿病によって分割されます。 ノード 2 の上にカーソルを移動すると、低血清クレアチニンと診断された糖尿病の患者が表示されます。 これらの患者の 100% は腎臓病と診断されました。
    7. ノード 3にカーソルを移動します。 血清クレアチニンが低く糖尿病のない患者については、85% 以上が腎臓病と診断されていないが、15% はまだ腎臓病と診断されている。
    8. ノード 3 からのブランチは、最後の重要要素 年齢によって分割されます。 ノード 4 の上にカーソルを移動すると、血清クレアチニンが低く糖尿病のない若い患者の 75% が腎臓病になるリスクがあることが分かります。
    9. ノード 5にカーソルを移動します。 16歳を超えた血清クレアチニンが低くと糖尿病のない患者のうち、腎臓病の危険があるのは 11% に過ぎなかった。
    10. モデルの詳細を閉じます。

ステップ 6: モデルを評価する

{: #step6} 精度分析ノードとテーブル・ノードを使用して、モデルを評価します。

  1. 出力 セクションから、 分析 ノードをキャンバスにドラッグします。
  2. モデル ナゲットを 分析 ノードに接続します。
  3. 分析 ノードを右クリックし、 実行を選択してください。
  4. 出力 パネルから、 分析を開きます。これは、モデルが腎臓疾患の診断を 95% の時間で正確に予測したことを示しています。 分析を閉じます。
  5. (オプション) ツールバーで、 ダウンロード アイコンをクリックして、モデルを .str ファイルとして保存します。
  6. 分析 ノードを右クリックし、 ブランチをモデルとして保存を選択してください。
    1. モデル名の場合は、 Kidney Disease Analysisと入力します。
    2. 「保存」をクリックします。
  7. 出力 セクションから、 ノードをキャンバスにドラッグします。
    1. モデル ナゲットを ノードに接続します。
    2. ノードを右クリックし、 プレビューを選択してください。
    3. プレビューが表示されたら、最後の 2 列までスクロールします。 $C-Class 列には腎臓病の予測が含まれ、また $CC-Class 列にはその予測の信頼性スコアが示されます。
    4. プレビューを閉じます。

ステップ 7: 新規データを使用してモデルをデプロイおよびテストする

{: #step7} 最後に、このモデルをデプロイし、新しいデータで結果を予測できます。

  1. プロジェクトの 資産 タブに戻ります。
  2. モデル セクションまでスクロールし、 腎臓疾患分析 モデルを開きます。
  3. デプロイメント・スペースにプロモートをクリックしてください。
  4. 既存のデプロイメント・スペースを選択してください。 デプロイメント・スペースを持っていない場合は、新しいデプロイメント・スペースを作成できます:
    1. スペース名を指定してください。
    2. ストレージ・サービスを選択してください。
    3. 機械学習サービスを選択してください。
    4. 「作成」をクリックします。
    5. 「閉じる」をクリックします。
  5. プロモート後にスペース内のモデルに移動を選択してください。
  6. プロモートをクリックします。
  7. モデルがデプロイメント・スペース内に表示されたら、 新規デプロイメントをクリックしてください。
    1. デプロイメント・タイプとして オンライン を選択してください。
    2. デプロイメントの名前を指定します。
    3. 「作成」をクリックします。
  8. デプロイメント タブに移動し、モデルがデプロイされるまで待ちます。
  9. デプロイメントが完了したら、デプロイメント名をクリックして、デプロイメントの詳細ページを表示します。
  10. テスト タブに移動します。 デプロイされたモデルは、デプロイメントの詳細ページから 2 つの方法でテストできます:1 つはフォームを使用してテストし、もう 1 つは JSON コードを使用してテストします。
  11. アイコンをクリックしてJSON として入力データを提供して、以下のテスト・データをコピーし、JSON テキストのところに貼り付けます:

    {"input_data":[{"fields":["age","bp","sg","al","su","rbc","pc","pcc","ba","bgr","bu","sc","sod","pot","hemo","pcv","wbcc","rbcc","htn","dm","cad","appet","pe","ane","class"], "values":[["62","80","1.01","2","3","normal","normal","notpresent","notpresent","423","53","1.8","","","9.6","31","7500","","no","yes","no","poor","no","yes","ckd"]]}]}
    
  12. 予測 をクリックして、62 歳の人が糖尿病と血清クレアチニン比 1.8 が腎臓病と診断される可能性が高いかどうかを予測します。 結果の予測は、この患者が腎臓病の診断を受ける可能性が高いことを示しています。

次のステップ

これで、このデータ・セットをさらに分析するために使用できます。 例えば、以下のようなタスクを実行できます:

その他のリソース