クイック・スタート: SPSS Modeler を使用したモデルを作成する
SPSS Modelerを使用して、モデルを作成、トレーニング、およびデプロイできます。 SPSS Modelerについて読み、ビデオを見て、初心者向けのチュートリアルに従い、コーディングは必要ありません。
- 必須のサービス
- Watson Studio ( SPSS Modelerを含む)
- Watson Machine Learning
基本的なワークフローには、以下のタスクが含まれます:
- プロジェクトを作成する プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
- SPSS Modeler フローをプロジェクトに追加します。
- キャンバス上のノードを構成し、フローを実行します。
- モデルの詳細を確認し、モデルを保存します。
- モデルをデプロイしてテストします。
SPSS Modeler について読む
SPSS Modeler フローを使用すると、ビジネスの専門知識を活用して予測モデルを迅速に開発し、それらをビジネス・オペレーションにデプロイして、意思決定を改善させることができます。 長年定評のある SPSS Modeler クライアントソフトウェアと、それが使用する業界標準の CRISP-DM モデルを中心に設計されたフローインターフェースは、データからより良いビジネス結果まで、データマイニングのプロセス全体を促進します。
SPSS Modeler には、マシン学習、人工知能、および統計に基づいたさまざまなモデル作成方法が用意されています。 ノード・パレットを利用して、データから新しい情報を引き出したり、予測モデルを作成することができます。 各手法によって、利点や適した問題の種類が異なります。
SPSS Modeler を使用したモデルの作成に関するビデオを見る
このビデオを見て、 SPSS Modeler フローを作成して実行し、機械学習モデルをトレーニングする方法を確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
SPSS Modeler を使用してモデルを作成するチュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
- タスク 1: プロジェクトを開きます。
- タスク 2: プロジェクトにデータ・セットを追加する。
- タスク 3: SPSS Modeler フローを作成します。
- タスク 4: SPSS Modeler フローにノードを追加します。
- タスク 5: SPSS Modeler フローを実行し、モデルの詳細を検討します。
- 作業 6: モデルを評価する。
- タスク 7: 新規データを使用してモデルをデプロイおよびテストする。
このチュートリアルを完了するための所要時間は約 30 分です。
データの例
このチュートリアルで使用されるデータ・セットは、カリフォルニア大学アーバイン校のデータ・セットで、一定期間の入院患者を基にした大規模な研究の結果である。 このモデルは、慢性腎臓疾患の予測に役立つ 3 つの重要な要因を使用します。
このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
タスク 1: プロジェクトを開く
SPSS Modeler フローを保管するためのプロジェクトが必要です。 既存のプロジェクトを使用することも、プロジェクトを作成することもできます。
ナビゲーション・メニュー から、 「プロジェクト」>「すべてのプロジェクトを表示」 を選択します。
既存のプロジェクトを開きます。 新規プロジェクトを使用する場合は、以下のようにします。
新規プロジェクトをクリックしてください。
「空のプロジェクトの作成」を選択します。
プロジェクトの名前と説明 (オプション) を入力します。
既存の オブジェクト・ストレージ・サービス・インスタンス を選択するか、または新規作成します。
「作成」 をクリックします。
詳しくは、またはビデオを視聴するには、 プロジェクトの作成を参照してください。
進行状況を確認してください
以下の画像は、新規プロジェクトを示しています。
タスク 2: プロジェクトへのデータ・セットの追加
このタスクをプレビューするには、 00:13から始まるビデオをご覧ください。
このチュートリアルでは、サンプル・データ・セットを使用します。 以下のステップに従って、サンプル・データ・セットをプロジェクトに追加します。
リソース・ハブの 「UCI ML リポジトリー: 慢性腎臓疾患データ・セット」 にアクセスします。
「プレビュー」をクリックします。 この分析の一環として利用できる慢性腎臓疾患の予測に役立つ重要な要因として、被験者の年齢、血清クレアチニン検査結果、糖尿病検査結果の 3 つがあります。 クラス値は、患者が以前に腎臓病の診断を受けたことがあるかどうかを示します。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、 追加をクリックしてください。
プロジェクトの表示をクリックしてください。
プロジェクトの 資産 ページで、 UCI ML Repository Chronic Kidney Disease Data Set.csv ファイルを見つけます。
進行状況を確認してください
以下の画像は、プロジェクトの 「資産」 タブを示しています。
タスク 3: SPSS Modeler フローの作成
このタスクをプレビューするには、 01:11から始まるビデオをご覧ください。
プロジェクトで SPSS Modeler フローを作成するには、以下の手順を実行します。
クリック新しいアセット > 視覚的なフローとしてモデルを構築。
フローの名前と説明を入力してください。
ランタイム定義の場合は、 デフォルト SPSS Modeler S 定義を受け入れます。
「作成」 をクリックします。 これにより、フローの作成に使用するフロー・エディターが開きます。
進行状況を確認してください
以下の画像は、フロー・エディターを示しています。
タスク 4: SPSS Modeler フローへのノードの追加
このタスクをプレビューするには、 01:31から始まるビデオをご覧ください。
データをロードした後、データを変換する必要があります。 単純なフローを作成するには、トランスフォーマーと推定法をキャンバスにドラッグし、それらをデータ・ソースに接続します。 パレットから以下のノードを使用します:
データ資産: プロジェクトから CSV ファイルをロードします
データ区分: データを学習セグメントとテスト・セグメントに分割します
タイプ: データ・タイプを設定します。 これを使用して、
class
フィールドをtarget
タイプとして指定します。C5.0: 分類アルゴリズム
分析: モデルを表示し、その正確度を確認します
表: 予測を使用したデータのプレビュー
フローを作成するには、以下の手順を実行します。
データ資産ノードを追加します。
インポート セクションから、 データ資産 ノードをキャンバスにドラッグします。
データ資産 ノードをダブルクリックして、データ・セットを選択してください。
「データ資産」>「UCI ML リポジトリー慢性腎臓疾患データ」 Set.csvを選択します。
「選択」をクリックします。
データ資産のプロパティーを表示します。
保存 をクリックします。
データ区分ノードを追加します。
フィールド操作 セクションから、 パーティション ノードをキャンバスにドラッグします。
データ資産 ノードを パーティション ノードに接続します。
パーティション ノードをダブルクリックして、そのプロパティーを表示します。 デフォルトのデータ区分では、データの半分をトレーニング用に、残りの半分をテスト用に分割しています。
保存 をクリックします。
データ型ノードを追加します。
フィールド操作 セクションから、 タイプ ノードをキャンバスにドラッグします。
パーティション ノードを タイプ ノードに接続します。
タイプ ノードをダブルクリックして、そのプロパティーを表示します。 データ型ノードは、各フィールドの測定のレベルを指定します。 このソース・データ・ファイルでは、4 つの異なる測定レベル (連続型、カテゴリー型、名義型、順序型、フラグ型) を使用しています。
class
フィールドを検索します。 各フィールドの役割に対して、各フィールドがモデリングにおいてどのような役割を果たすかを示します。class
役割 を 目標 (予測するフィールド) に変更します。保存 をクリックします。
C5.0 分類アルゴリズム・ノードを追加します。
モデリング セクションから、 C5.0 ノードをキャンバスにドラッグします。
タイプ ノードを C5.0 ノードに接続します。
C5.0 ノードをダブルクリックして、そのプロパティーを表示します。 デフォルトでは、 C5.0 アルゴリズムはデシジョン・ツリーが作成します。 C5.0 モデルは、最大の情報ゲインを提供するフィールドに基づいてサンプルを分割することによって作業します。 最初の分割によって定義された各サブサンプルは、通常は別のフィールドに基づいて再度分割され、サブサンプルがそれ以上分割できなくなるまでプロセスが繰り返されます。 最後に、最下位レベルの分割が再検討され、モデルの価値に大きく寄与しない分割が削除されます。
「このノードで定義された設定を使用」をオンに切り替えます。
対象の場合は、 クラスを選択してください。
入力 セクションで、 列の追加をクリックしてください。
「フィールド名」の横のチェック・ボックスをクリアします。
年齢、 sc、 dmを選択してください。
「OK」をクリックします。
保存 をクリックします。
進行状況を確認してください
以下の図は、完了したフローを示しています。
タスク 5: SPSS Modeler フローを実行し、モデルの詳細を探索する
このタスクをプレビューするには、 04:20から始まるビデオをご覧ください。
フローの設計が完了したので、以下のステップに従ってフローを実行し、ツリー図を調べて決定点を確認します。
C5.0 ノードを右クリックし、 実行を選択してください。 フローを実行すると、キャンバス上に新しいモデル・ナゲットが生成されます。
モデル・ナゲットを右クリックし、 モデルの表示 を選択してモデルの詳細を表示します。
モデルの要約を提供する モデル情報 を表示します。
上位の決定ルールをクリックしてください。 テーブルには、さまざまな入力フィールドの値に基づいて個々のレコードを下位ノードに割り当てるために使用された一連のルールが表示されます。
特徴量の重要度をクリックしてください。 グラフには、モデルを推定する際の各予測値の相対的な重要度が表示されます。 このことから、血清クレアチニンが最も重要な因子であり、糖尿病が次に重要な因子であることがわかります。
ツリー図をクリックしてください。 同じモデルがツリーの形式で表示され、各デシジョン・ポイントにノードが表示されます。
トップ・ノードの上にカーソルを移動すると、データ・セット内のすべてのレコードの要約が表示されます。 データ・セット内のほぼ 40% の症例が、腎臓病と診断されていないと分類されています。 ツリーは、原因となる可能性がある要因に関する追加のヒントを提供できます。
最上部のノードから派生する 2 つのブランチに注目してください。これは、 serum creatinineによる分割を示しています。
血清クレアチニンが 1.25より大きいレコードを示すブランチを確認します。 この場合、100% の患者が腎臓病の診断で陽性となる。
血清クレアチニンが 1.25以下のレコードを示す分枝を検討します。 これらの患者の約 80% は腎臓疾患の陽性診断を受けていないが、血清クレアチニンが低い患者の約 20% は依然として腎臓疾患と診断されている。
sc<=1.250に由来する分岐が 糖尿病によって分割されていることに注目してください。
血清クレアチニンが低い (sc<=1.250) と糖尿病と診断された (dm = yes) ことを示す分枝を確認します。 これらの患者の 100% は腎臓疾患と診断された。
血清クレアチニンが低く (sc<=1.250)、糖尿病がなく (dm = no)、85% が腎臓疾患と診断されていないが、15% がまだ腎臓疾患と診断されていることを示す分岐を確認します。
最後の有意因子 ageで分割された、 dm = noに由来する分枝に注目してください。
14 歳以下の患者を示す分岐を確認します (< = 14 歳)。 この分枝では、血清クレアチニンが低く糖尿病を患っていない若い患者の 75% が腎臓疾患を患う危険性があることが示されています。
14 歳 (> 14) より年上の患者を示す支店を確認します。 この分科によると、14 歳以上の患者のうち、血清クレアチニンが低く、糖尿病にかかっていない患者は 12% に過ぎなかった。
モデルの詳細を閉じます。
進行状況を確認してください
以下の画像は、ツリー図を示しています。
タスク 6: モデルの評価
このタスクをプレビューするには、 07:24から始まるビデオをご覧ください。
精度分析ノードとテーブル・ノードを使用してモデルを評価するには、以下の手順を実行します。
出力 セクションから、 分析 ノードをキャンバスにドラッグします。
モデル ナゲットを 分析 ノードに接続します。
分析 ノードを右クリックし、 実行を選択してください。
「出力」 パネルから 「分析」を開きます。これは、モデルが腎臓疾患の診断をほぼ 95% の確率で正確に予測したことを示しています。 分析を閉じます。
(オプション) ツールバーで、 ダウンロード アイコンをクリックして、モデルを .str ファイルとして保存します。
分析 ノードを右クリックし、 ブランチをモデルとして保存を選択してください。
モデル名の場合は、
Kidney Disease Analysis
と入力します。保存 をクリックします。
「閉じる」をクリックします。
出力 セクションから、 表 ノードをキャンバスにドラッグします。
モデル ナゲットを 表 ノードに接続します。
「テーブル」 ノードを右クリックし、 「データのプレビュー」を選択します。
プレビューが表示されたら、最後の 2 列までスクロールします。 $C-Class 列には腎臓病の予測が含まれ、また $CC-Class 列にはその予測の信頼性スコアが示されます。
プレビューを閉じます。
進行状況を確認してください
以下の画像は、予測を含むプレビュー・テーブルを示しています。
タスク 7: 新規データを使用してモデルをデプロイおよびテストする
このタスクをプレビューするには、 09:10から始まるビデオをご覧ください。
最後に、以下の手順に従ってこのモデルをデプロイし、新しいデータで結果を予測します。
プロジェクトの 資産 タブに戻ります。
「モデル」 セクションをクリックして、 「Kidney 疾病分析」 モデルを開きます。
「デプロイメント・スペースにプロモート」 アイコン をクリックします。
既存のデプロイメント・スペースを選択してください。 デプロイメント・スペースを持っていない場合は、新しいデプロイメント・スペースを作成できます:
スペース名を指定してください。
ストレージ・サービスを選択してください。
機械学習サービスを選択してください。
「作成」 をクリックします。
「閉じる」をクリックします。
プロモート後にスペース内のモデルに移動を選択してください。
プロモートをクリックします。
モデルがデプロイメント・スペース内に表示されたら、 新規デプロイメントをクリックしてください。
デプロイメント・タイプとして オンライン を選択してください。
デプロイメントの名前を指定します。
「作成」 をクリックします。
デプロイメントが完了したら、デプロイメント名をクリックして、デプロイメントの詳細ページを表示します。
テスト タブに移動します。 デプロイされたモデルは、デプロイメントの詳細ページから 2 つの方法でテストできます:1 つはフォームを使用してテストし、もう 1 つは JSON コードを使用してテストします。
「JSON 入力」をクリックし、以下のテスト・データをコピーして貼り付け、既存の JSON テキストを置き換えます。
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }
予測 をクリックして、62 歳の人が糖尿病と血清クレアチニン比 1.8 が腎臓病と診断される可能性が高いかどうかを予測します。 結果の予測は、この患者が腎臓病の診断を受ける可能性が高いことを示しています。
進行状況を確認してください
次の図は、予測を含むモデル・デプロイメントの「テスト」タブを示しています。
次のステップ
これで、このデータ・セットをさらに分析するために使用できます。 例えば、以下のようなタスクを実行できます:
その他のリソース
SPSS Modeler のチュートリアルをもっと見る
モデルを作成するには、以下の他の方法を試してください。
その他の ビデオ を見る
サンプル・データ・セットとノートブックを検索して、 リソース・ハブ でモデルを構築する実地体験を得ることができます。
SPSS Modeler コミュニティー への投稿
親トピック: クイック・スタート・チュートリアル