このチュートリアルでは、データ・ファブリックの評価版を使用して、外部データ・ソースに保管されている簡潔で、前処理された、最新のデータを提供するエンドツーエンド・パイプラインを作成します。 目標は、オーケストレーション・パイプラインを使用してエンドツーエンドのワークフローを調整し、自動化された一貫性のある反復可能な結果を生成することです。 パイプラインはDataStageそしてAutoAI,特徴エンジニアリングやハイパーパラメータの最適化など、モデル構築プロセスのさまざまな側面を自動化します。 AutoAI は、候補アルゴリズムをランク付けしてから、最適なモデルを選択します。
このチュートリアルのストーリーは、 GoldenBank がオンライン・アプリケーション向けに特別低金利住宅ローンの更新を提供することで、ビジネスを拡大したいと考えているということです。 オンライン・アプリケーションは、銀行の顧客範囲を拡大し、銀行のアプリケーション処理コストを削減します。 チームは、Orchestration Pipelines を使用して、すべての住宅ローン申請者に関する最新データを提供するデータ・パイプラインを作成します。このデータ・パイプラインは、貸し手が意思決定に使用できます。 データは Db2 Warehouseに保管されます。 データを準備する必要があるのは、データが不完全で古い可能性があり、データ・プライバシーおよび主権ポリシーにより難読化されているか、まったくアクセスできない可能性があるためです。 次に、チームは、信頼できるデータから住宅ローン承認モデルを作成し、そのモデルを実稼働前環境にデプロイしてテストする必要があります。
以下のアニメーション・イメージは、このチュートリアルを終了するまでに実行する内容のクイック・プレビューを提供します。 パイプラインを編集して実行し、機械学習モデルを作成してデプロイします。 イメージをクリックすると、より大きいイメージが表示されます。
チュートリアルをプレビューする
このチュートリアルでは、以下のタスクを実行します:
- 前提条件をセットアップします。
- タスク 1: サンプル・プロジェクト内の資産を表示します。
- タスク 2: 既存のパイプラインを探索する。
- タスク 3: パイプラインにノードを追加する。
- タスク 4: パイプラインを実行します。
- タスク 5: 資産、デプロイ済みモデル、およびオンライン・デプロイメントを表示します。
- クリーンアップ (オプション)
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
前提条件のセットアップ
Cloud Pak for Data as a Service への登録
Cloud Pak for Data as a Service に登録し、データ統合ユース・ケースに必要なサービスをプロビジョンする必要があります。
- 既存の Cloud Pak for Data as a Service アカウントがある場合は、このチュートリアルを開始できます。 ライト・プランのアカウントを持っている場合、このチュートリアルを実行できるのはアカウントごとに 1 人のユーザーのみです。
- Cloud Pak for Data as a Service アカウントがまだない場合は、 データ・ファブリックのトライアルに登録してください。
Cloud Pak for Dataのデータ・ファブリックについては、以下のビデオをご覧ください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
必要なプロビジョン済みサービスの確認
このタスクをプレビューするには、00:37から始まるビデオをご覧ください。
必要なサービスを検証またはプロビジョンするには、以下の手順を実行します。
ナビゲーションメニュー「」から、「サービス」>「サービスインスタンス」を選択する。
Productドロップダウンリストを使用して、既存のwatsonx.aiStudio サービスインスタンスが存在するかどうかを判断します。
watsonx.aiStudio サービスのインスタンスを作成する必要がある場合は、Add service をクリックします。
watsonx.aiStudioを選択します。
「ライト」 プランを選択します。
「作成」 をクリックします。
watsonx.aiStudio サービスがプロビジョニングされるまでお待ちください。
これらのステップを繰り返して、以下の追加サービスを確認またはプロビジョニングします:
- watsonx.aiランタイム
- DataStage
- Cloud Object Storage
進捗状況を確認する
次のイメージは、プロビジョンされたサービス・インスタンスを示しています。
サンプル・プロジェクトを作成する
このタスクをプレビューするには、 01:14から始まるビデオをご覧ください。
このチュートリアルのサンプル・プロジェクトが既にある場合は、このタスクをスキップしてください。 そうでない場合は、以下のステップに従ってください。
リソースハブのOrchestrate an AI pipelineサンプルプロジェクトにアクセスします。
「プロジェクトの作成」をクリックします。
プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
「作成」 をクリックします。
プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。
「資産」 タブをクリックして、接続、 DataStage フローとデータ定義、およびパイプラインを表示します。
進捗状況を確認する
以下のイメージは、サンプル・プロジェクトの「資産」タブを示しています。 これで、チュートリアルを開始する準備ができました。
watsonx.aiRuntime サービスをサンプルプロジェクトに関連付けます
このタスクをプレビューするには、02:04から始まるビデオを見てください。
モデルの作成とデプロイにはwatsonx.aiRuntime を使用するので、以下の手順に従ってwatsonx.aiRuntime サービスインスタンスをサンプルプロジェクトに関連付けます。
「AI パイプラインのオーケストレーション」 プロジェクトで、 「管理」タブをクリックします。
「サービスおよび統合 (Services and Integrations)」 ページをクリックします。
「サービスの関連付け」をクリックします。
watsonx.aiRuntimeサービスインスタンスの横にあるボックスにチェックを入れます。
「関連付け」をクリックします。
「キャンセル」 をクリックして、 「サービス」&「統合」 ページに戻ります。
進捗状況を確認する
次の画像は、watsonx.aiRuntime サービスが表示されている「Services and Integrations」ページです。 これで、サンプル・プロジェクトを作成する準備ができました。
タスク 1: サンプル・プロジェクト内の資産の表示
このタスクをプレビューするには、02:26から始まるビデオをご覧ください。
サンプル・プロジェクトには、接続、データ定義、2 つの DataStage フロー、パイプラインなど、いくつかの資産が含まれています。 これらの資産を表示するには、以下の手順に従います。
Orchestrate AI パイプライン・プロジェクトの 「資産 (Assets)」 タブをクリックし、 「すべての資産 (All assets)」を表示します。
DataStage フローおよびパイプラインで使用されるすべてのデータ資産は、 AI_MORTGAGE スキーマ内の Data Fabric Trial- Db2 Warehouse 接続に保管されます。 以下のイメージは、その接続からの資産を示しています。
「住宅ローン・データの統合」 DataStage フローは、各住宅ローン申請者に関するデータ (個人情報を含む) を、その申請の詳細、クレジット・スコア、商業購入者としての状況、最終的には各申請者が選択した住宅の価格と統合し、結合されたデータを含む
Mortgage_Data.csv
という名前の順次ファイルをプロジェクト内に作成します。 以下の図は、 「住宅ローン・データの統合」 DataStage フローを示しています。ヒント: DataStage フローが表示されない場合は、前に戻ってサービス・インスタンスを表示し、正常にプロビジョンされた DataStage インスタンスを確認してください。 必要なサービスのプロビジョンを参照してください。住宅ローン承認の統合 DataStage フローは、最初の DataStage フロー (
Mortgage_Data.csv
) からの出力を使用し、各住宅ローン・アプリケーション承認に関する情報を統合することにより、データをさらに強化します。 結果のデータ・セットは、Mortgage_Data_with_Approvals.csv
という名前でプロジェクトに保存されます。 以下のイメージは、 「住宅ローン承認の統合」 DataStage フローを示しています。Mortgage_Data_with_Approvals.csv
データ資産の Definition_Mortgage_Data データ定義は、 「住宅ローン承認の統合」 DataStage フローによって作成されます。 次の図は、データ定義を示しています。
進捗状況を確認する
以下のイメージは、サンプル・プロジェクト内のすべての資産を示しています。 これで、サンプル・プロジェクトでパイプラインを探索する準備ができました。
タスク 2: 既存のパイプラインの探索
このタスクをプレビューするには、 04:00から始まるビデオをご覧ください。
サンプル・プロジェクトには、以下のタスクを自動化するオーケストレーション・パイプラインが含まれています。
2 つの既存の DataStage ジョブを実行します。
AutoAI エクスペリメントを作成します。
AutoAI エクスペリメントを実行し、 DataStage ジョブからの結果出力ファイルをトレーニング・データとして使用する最適なパフォーマンスのモデルを保存します。
デプロイメント・スペースを作成します。
保存したモデルをデプロイメント・スペースにプロモートします。
パイプラインを探索するには、以下の手順を実行します。
Orchestrate AI パイプライン・プロジェクトの 「資産 (Assets)」 タブで、 「すべての資産 (All assets)」を表示します。
「住宅ローン承認パイプライン」 をクリックして、パイプラインを開きます。
パイプラインの最初のセクションでは、2 つの DataStage ジョブ (「住宅ローン・データの統合」 および 「住宅ローン承認の統合」) が順番に実行され、 Db2 Warehouse on Cloud 接続のさまざまな表を、 AutoAI エクスペリメントのトレーニング・データとして使用される結合ラベル付きデータ・セットに結合します。
「状況の確認」 ノードをダブルクリックして、条件を表示します。 この条件は、 「完了」 または 「警告付きで完了」の値を持つ最初の DataStage ジョブの完了を確認するためのパイプライン内の決定点です。 パイプラインに戻るには、 「キャンセル」 をクリックします。
「 AutoAI エクスペリメントの作成」 ノードをダブルクリックして、設定を確認します。 このノードは、設定を使用して AutoAI エクスペリメントを作成します。
以下の設定の値を確認します。
AutoAI エクスペリメント名
有効範囲 (Scope)
予測タイプ
予測列
ポジティブ・クラス
データ分割率のトレーニング
含めるアルゴリズム
使用するアルゴリズム
メトリックの最適化
設定を閉じるには、 「キャンセル」 をクリックします。
「 AutoAI エクスペリメントの実行」 ノードをダブルクリックして、設定を確認します。 このノードは、 「住宅ローン承認の統合」 DataStage ジョブからの出力をトレーニング・データとして使用する 「 AutoAI エクスペリメントの作成」 ノードから作成された AutoAI エクスペリメントを実行します。
以下の設定の値を確認します。
AutoAI エクスペリメント
トレーニング・データ資産
モデル名接頭部
設定を閉じるには、 「キャンセル」 をクリックします。
「 AutoAI エクスペリメントの実行」 ノードと 「デプロイメント・スペースの作成」 ノードの間で、 「モデルをデプロイしますか?」 をダブルクリックします。 条件を確認するためのノード。 この条件の値 True は、デプロイメント・スペースの作成を続行するためのパイプライン内の決定点です。 パイプラインに戻るには、 「キャンセル」 をクリックします。
「デプロイメント・スペースの作成」 ノードをダブルクリックして、設定を表示します。 このノードでは、指定した名前の新しいデプロイメントスペースが作成され、Cloud Object Storageとwatsonx.aiRuntime サービスの入力が必要になります。
「新規スペース名」 設定の値を確認します。
「新規スペース COS インスタンス CRN (New space COS Instance CRN)」 フィールドで、リストから Cloud Object Storage インスタンスを選択します。
New space WML Instance CRN] フィールドで、リストからwatsonx.aiRuntime インスタンスを選択します。
保存 をクリックします。
「モデルをデプロイメント・スペースにプロモート」 ノードをダブルクリックして設定を表示します。 このノードは、 「 AutoAI エクスペリメントの実行」 ノードから、 「デプロイメント・スペースの作成」 ノードから作成されたデプロイメント・スペースに最適なモデルをプロモートします。
以下の設定の値を確認します。
ソース資産
ターゲット
設定を閉じるには、 「キャンセル」 をクリックします。
進捗状況を確認する
以下のイメージは、初期パイプラインを示しています。 これで、パイプラインを編集してノードを追加する準備ができました。
タスク 3: パイプラインへのノードの追加
このタスクをプレビューするには、06:23から始まるビデオをご覧ください。
パイプラインによってモデルが作成され、デプロイメント・スペースが作成されてから、デプロイメント・スペースにプロモートされます。 オンライン・デプロイメントを作成するには、ノードを追加する必要があります。 オンライン・デプロイメントの作成を自動化するためにパイプラインを編集するには、以下の手順を実行します。
「オンライン・デプロイメントの作成」 ノードをキャンバスに追加します。
ノード・パレットで 「作成」 セクションを展開します。
「オンライン・デプロイメントの作成 (Create online deployment)」 ノードをキャンバスにドラッグし、そのノードを 「モデルをデプロイメント・スペースにプロモート (Promote Model to Deployment Space)」 ノードの後にドロップします。
「モデルをデプロイメント・スペースにプロモート」 ノードの上にカーソルを移動すると、矢印が表示されます。 矢印を 「オンライン・デプロイメントの作成 (Create online deployment)」 ノードに接続します。
注: パイプライン内のノード名は、以下のアニメーション化されたイメージとは異なる場合があります。コメント・ボックス上の円をノードに接続して、 「プロモートされたモデルのオンライン・デプロイメントの作成」 コメントを 「オンライン・デプロイメントの作成」 ノードに接続します。
注: パイプライン内のノード名は、以下のアニメーション化されたイメージとは異なる場合があります。「オンライン・デプロイメントの作成」 ノードをダブルクリックして、設定を表示します。
ノード名を
Create Online Deployment
に変更します。「ML 資産」の横にあるメニューから 「別のノードから選択」 をクリックします。
リストから 「モデルをデプロイメント・スペースにプロモート」 ノードを選択します。 ノード ID winning_model が選択されています。
「新規デプロイメント名」に
mortgage approval model deployment
と入力します。「作成モード」で、 「上書き」を選択します。
「保存」 をクリックして、 「オンライン・デプロイメントの作成」 ノードの設定を保存します。
進捗状況を確認する
以下のイメージは、完了したパイプラインを示しています。 これで、パイプラインを実行する準備ができました。
タスク 4: パイプラインの実行
このタスクをプレビューするには、07:38から始まるビデオをご覧ください。
パイプラインが完了したら、以下のステップに従ってパイプラインを実行します。
ツールバーから、 「パイプラインの実行」>「トライアル実行」をクリックします。
「パイプライン・パラメーターの定義」 ページで、デプロイメントの 「True」 を選択します。
Trueに設定すると、パイプラインはデプロイされたモデルを検証し、そのモデルをスコアリングします。
Falseに設定すると、パイプラインは、 AutoAI エクスペリメントによってプロジェクト内にモデルが作成されたことを検証し、モデル情報とトレーニング・メトリックを確認します。
今回初めてパイプラインを実行する場合は、API キーの入力を求めるプロンプトが出されます。 パイプライン資産は、個人用の IBM Cloud API キーを使用して、中断することなく安全に操作を実行します。
既存の API キーがある場合は、 「既存の API キーを使用 (Use existing API key)」をクリックし、API キーを貼り付け、 「保存」をクリックします。
既存の API キーがない場合は、 「新規 API キーの生成」をクリックし、名前を指定して、 「保存」をクリックします。 API キーをコピーして、後で使用するために保存します。 完了したら、 「閉じる」をクリックします。
「実行」 をクリックして、パイプラインの実行を開始します。
パイプラインの実行中に統合ログをスクロールします。 試用版の実行が完了するまでに最大 10 分かかる場合があります。
各操作が完了したら、キャンバス上でその操作のノードを選択します。
「ノード・インスペクター」 タブで、操作の詳細を表示します。
「ノード出力」 タブをクリックして、各ノード操作の出力の要約を表示します。
進捗状況を確認する
以下のイメージは、試用版の実行が完了した後のパイプラインを示しています。 これで、パイプラインによって作成された資産を確認する準備ができました。
タスク 5: 資産、デプロイ済みモデル、およびオンライン・デプロイメントの表示
このタスクをプレビューするには、09:48から始まるビデオをご覧ください。
パイプラインによって複数の資産が作成されました。 資産を表示するには、以下の手順を実行します。
ナビゲーション・トレールで 「AI パイプラインのオーケストレーション (Orchestrate an AI pipeline)」 プロジェクト名をクリックして、プロジェクトに戻ります。
「アセット」 タブで、 「すべてのアセット」を表示します。
データ資産を表示します。
Mortgage_Data.csv データ資産をクリックします。 DataStage ジョブがこの資産を作成しました。
ナビゲーション・トレールでプロジェクト名をクリックして、 「資産」 タブに戻ります。
Mortgage_Data_with_Approvals.csv データ資産をクリックします。 DataStage ジョブがこの資産を作成しました。
ナビゲーション・トレールでプロジェクト名をクリックして、 「資産」 タブに戻ります。
モデルを表示します。
mortgage age_approval_best_modelで始まる機械学習モデル資産をクリックします。 AutoAI エクスペリメントでは、いくつかのモデル候補が生成され、これが最良のモデルとして選択されました。
モデル情報をスクロールします。
ナビゲーション・トレールでプロジェクト名をクリックして、 「資産」 タブに戻ります。
プロジェクトの 「ジョブ」 タブをクリックして、2 つの DataStage ジョブと 1 つのパイプライン・ジョブ実行に関する情報を表示します。
ナビゲーションメニュー「」から「Deployments」を選択する。
「スペース」 タブをクリックします。
「Mortgage approval」 デプロイメント・スペースをクリックします。
「資産」 タブをクリックし、 mortgage age_approval_best_modelで始まるデプロイ済みモデルを確認します。
デプロイメント タブをクリックしてください。
「住宅ローン承認モデルのデプロイメント」 をクリックして、デプロイメントを表示します。
「API リファレンス」 タブに情報が表示されます。
「テスト」 タブをクリックします。
「JSON 入力」 タブをクリックし、サンプル・テキストを以下の JSON テキストに置き換えます。
{ "input_data": [ { "fields": [ "ID", "NAME", "STREET_ADDRESS", "CITY", "STATE", "STATE_CODE", "ZIP_CODE", "EMAIL_ADDRESS", "PHONE_NUMBER", "GENDER", "SOCIAL_SECURITY_NUMBER", "EDUCATION", "EMPLOYMENT_STATUS", "MARITAL_STATUS", "INCOME", "APPLIEDONLINE", "RESIDENCE", "YRS_AT_CURRENT_ADDRESS", "YRS_WITH_CURRENT_EMPLOYER", "NUMBER_OF_CARDS", "CREDITCARD_DEBT", "LOANS", "LOAN_AMOUNT", "CREDIT_SCORE", "CRM_ID", "COMMERCIAL_CLIENT", "COMM_FRAUD_INV", "FORM_ID", "PROPERTY_CITY", "PROPERTY_STATE", "PROPERTY_VALUE", "AVG_PRICE" ], "values": [ [ null, null, null, null, null, null, null, null, null, null, null, "Bachelor", "Employed", null, 144306, null, "Owner Occupier", 15, 19, 2, 7995, 1, 1483220, 437, null, false, false, null, null, null, 111563 ], [ null, null, null, null, null, null, null, null, null, null, null, "High School", "Employed", null, 45283, null, "Private Renting", 11, 13, 1, 1232, 1, 7638, 706, null, false, false, null, null, null, 547262 ] ] } ] }
予測をクリックしてください。 結果は、最初の応募者が承認されず、2 番目の応募者が承認されることを示しています。
進捗状況を確認する
以下の画像は、テストの結果を示しています。
ゴールデン・バンクのチームは、Orchestration Pipelines を使用して、すべての住宅ローン申請者に関する最新データと、貸し手が意思決定に使用できる機械学習モデルを提供するデータ・パイプラインを作成しました。
クリーンアップ (オプション)
このチュートリアルをやり直す場合は、以下の成果物を削除してください。
成果物 | 削除方法 |
---|---|
住宅ローン承認のデプロイメント・スペースでの住宅ローン承認モデルのデプロイメント | デプロイメントの削除 |
住宅ローン承認のデプロイメント・スペース | デプロイメント・スペースの削除 |
AI パイプライン・サンプル・プロジェクトのオーケストレーション | プロジェクトの削除 |
次のステップ
以下のチュートリアルをお試しください。
別の データ・ファブリックのユース・ケースに登録します。
もっと見る
親トピック: ユース・ケースのチュートリアル