0 / 0
資料の 英語版 に戻る
データ・サイエンスと MLOps のユース・ケース

データ・サイエンスと MLOps のユース・ケース

データ分析とモデル作成を運用可能にするには、企業は統合されたシステムとプロセスを必要とします。 Cloud Pak for Data as a Service は、企業が機械学習モデルやその他のデータ・サイエンス・アプリケーションを開発およびデプロイできるようにするためのプロセスとテクノロジーを提供します。

このビデオを視聴して、 Cloud Pak for Dataで Data Science and MLOps ソリューションを実装するためのデータ・ファブリックのユース・ケースを確認してください。

このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。

チャレンジ

企業向けのデータ・サイエンスと MLOps のソリューションを確立するには、以下の課題に取り組む必要があります。

高品質データへのアクセス
組織は、データを使用してモデルを作成するデータ・サイエンス・チームに、高品質で管理されたデータへの容易なアクセスを提供する必要があります。
モデルのビルドとデプロイの操作
組織は、反復可能なプロセスを実装して、モデルを迅速かつ効率的に構築し、実稼働環境にデプロイする必要があります。
モデルのモニターおよびリトレーニング
組織は、実動フィードバックに基づいてモデルのモニタリングとリトレーニングを自動化する必要があります。

これらの課題は、 Cloud Pak for Data as a Serviceにデータ・ファブリックを実装することで解決できます。


例: ゴールデン・バンクの課題

ゴールデン・バンクは、オンライン・アプリケーション向けに低金利のモーゲージ更新を提供することでビジネスを拡大するために、データ・サイエンスと MLOps のプロセスを実装しています。 ゴールデン・バンクのデータ・サイエンティストは、リスクを回避し、すべての応募者を公平に扱う住宅ローン承認モデルを作成する必要があります。 また、モデルのパフォーマンスを最適化するために、モデルのリトレーニングを自動化する必要もあります。

処理

企業にデータ・サイエンスと MLOps を実装するために、組織は以下のプロセスに従うことができます。

  1. データの準備と共有
  2. モデルの構築とトレーニング
  3. モデルのデプロイ
  4. モニター・モデル
  5. AI ライフサイクルの自動化

Cloud Pak for Data as a Service の Watson Studio、 Watson Machine Learning、 Watson OpenScale、および Watson Knowledge Catalog サービスは、組織が Data Science and MLOps ソリューションを実装するために必要なツールとプロセスを提供します。

データ・サイエンスのユース・ケースのフローを示す画像

1. データの準備と共有

データ・サイエンティストは、独自のデータ・セットを準備して、カタログで共有することができます。 カタログは、データ・サイエンティスト・チームが必要な機能を備えた高品質のデータ資産を見つけることができるフィーチャー・ストアとして機能します。 カタログからプロジェクトにデータ資産を追加して、データの準備、分析、およびモデル化を共同で行うことができます。

使用できるもの できること 最適な使用のタイミング
Data Refinery 多様なデータ・ソース接続からのデータにアクセスして、データを詳細化します。

結果のデータ・セットをスナップショットとして具体化します。これにより、他のデータ・サイエンティストが分析および探索できるようにデータを結合、結合、またはフィルタリングできます。

結果のデータ・セットをカタログで使用できるようにします。
データをシェーピングまたはクレンジングする場合は、データを視覚化する必要があります。

大量の生データを分析用に準備するプロセスを簡素化する必要があります。
カタログ Watson Knowledge Catalog のカタログをフィーチャー・ストアとして使用して、組織内のコラボレーター間で共有する資産を編成します。

AI を活用したセマンティック検索と推奨を利用して、ユーザーが必要なものを見つけられるようにします。
ユーザーは、高品質のデータの理解、コラボレーション、エンリッチ、およびアクセスを容易に行う必要があります。

ビジネス・ユーザー間のデータとコラボレーションの可視性を高める必要があります。

ユーザーは、データの物理的な形式や場所を理解せずに、データを移動したりコピーしたりすることなく、データの表示、アクセス、操作、分析を行う必要があります。

ユーザーは、資産のレーティングおよびレビューによって資産を強化する必要があります。

例: ゴールデン・バンクのカタログ

ガバナンス・チーム・リーダーは、カタログ「住宅ローン承認カタログ」を作成し、データ・スチュワードとデータ・サイエンティストをカタログ・コラボレーターとして追加します。 データ・スチュワードは、作成したデータ資産をカタログに公開します。 データ・サイエンティストは、カタログ内でデータ・スチュワードによってキュレーションされたデータ資産を見つけ、それらの資産をプロジェクトにコピーします。 データ・サイエンティストは、プロジェクトでデータを精製して、モデルをトレーニングするための準備をすることができます。


2. モデルの作成とトレーニング

データに基づいて予測的な洞察を得るために、データ・サイエンティスト、ビジネス・アナリスト、および機械学習エンジニアは、モデルを作成してトレーニングすることができます。 データ・サイエンティストは、 Cloud Pak for Data as a Service サービスを使用して AI モデルを構築し、ビジネス問題の解決に役立つ予測を行うために適切なアルゴリズムと最適化が使用されるようにします。

使用できるもの できること 最適な使用のタイミング
AutoAI Watson Studio の AutoAI を使用して、アルゴリズムを自動的に選択し、機能を設計し、パイプライン候補を生成し、モデル・パイプライン候補をトレーニングします。

次に、ランク付けされたパイプラインを評価し、モデルとして最適に保存します。

トレーニングされたモデルをスペースにデプロイするか、 AutoAI から好みのモデル・トレーニング・パイプラインをノートブックにエクスポートして詳細化します。
トレーニング・パイプラインとモデルの適切なセットを素早く作成するための高度な自動化された方法が必要です。

生成されたパイプラインをエクスポートして、それらを詳細化できるようにする必要があります。
ノートブックおよびスクリプト Watson Studio でノートブックとスクリプトを使用して、 Python または R で独自のフィーチャー・エンジニアリング・モデルのトレーニング・コードと評価コードを作成します。 プロジェクトで使用可能なトレーニング・データ・セット、またはデータベース、データレイク、オブジェクト・ストレージなどのデータ・ソースへの接続を使用します。

任意のオープン・ソース・フレームワークおよびライブラリーを使用してコーディングします。
Python または R のコーディング・スキルを使用して、モデルの作成、トレーニング、および評価に使用するコードを完全に制御できます。
SPSS Modeler のフロー Watson Studio で SPSS Modeler フローを使用して、独自のモデルのトレーニング・フロー、評価フロー、およびスコアリング・フローを作成します。 プロジェクトで使用可能なトレーニング・データ・セット、またはデータベース、データレイク、オブジェクト・ストレージなどのデータ・ソースへの接続を使用します。 データを探索し、モデルのトレーニング、評価、およびスコアリングのフローを定義するための簡単な方法が必要です。
RStudio RStudio で R を使用してデータを分析し、モデルを作成してテストします。 R で作業するために開発環境を使用したいとします。
Decision Optimization Watson Machine Learningを使用して、データの準備、モデルのインポート、問題の解決、シナリオの比較、データの視覚化、ソリューションの検索、レポートの作成、デプロイするモデルの保存を行います。 処方的分析の問題に対する最適なソリューションを見つけるには、何百万もの可能性を評価する必要があります。
統合学習 分散データを使用する共通モデルをトレーニングします。 複数の場所に分散しているデータを移動、結合、または共有することなく、モデルをトレーニングする必要があります。

例: ゴールデン・バンクのモデル構築とトレーニング

ゴールデン・バンクのデータ・サイエンティストは、予期しないリスクを回避し、すべての応募者を公平に扱うモデル「住宅ローン承認モデル」を作成します。 最初からモデルの履歴とパフォーマンスを追跡する必要があるため、モデル・ユース・ケースを「住宅ローン承認カタログ」に追加します。 彼らはノートブックを実行してモデルを構築し、どの申請者が住宅ローンの資格を満たしているかを予測します。 モデル・トレーニングの詳細は、モデル・ユース・ケースのメタデータとして自動的に取り込まれます。


3. モデルのデプロイ

作成した AI モデルを運用チーム・メンバーがデプロイすると、それらの AI モデルはアプリケーションで使用可能になり、アクションの駆動を助けるスコアリングや予測に利用できるようになります。

使用できるもの できること 最適な使用のタイミング
スペース・ユーザー・インターフェース スペース UI を使用して、モデルおよびその他の資産をプロジェクトからスペースにデプロイします。 コラボレーション・ワークスペースにモデルをデプロイし、デプロイメント情報を表示したい。


例: ゴールデン・バンクのモデル・デプロイメント

ゴールデン・バンクのオペレーション・チーム・メンバーは、「住宅ローン承認モデル」をプロジェクトからデプロイメント・スペースにプロモートし、オンライン・モデル・デプロイメントを作成します。


4. デプロイ済みモデルのモニター

モデルをデプロイした後、それらのモデルをモニターして、パフォーマンスが良好であることを確認することが重要です。 データ・サイエンティストは、モデルのパフォーマンスとデータ整合性の問題を監視する必要があります。

使用できるもの できること 最適な使用のタイミング
Watson OpenScale 複数の特徴量にわたるモデルの公平性の問題をモニターします。

時間の経過に伴うモデルのパフォーマンスとデータの整合性をモニターします。

重み付けされた要因を使用して、モデルがどのように特定の予測に到達したかを説明します。

組織全体のモデルのガバナンスとライフサイクルを維持し、レポートします。
保護されている特徴量、または予測の公平性に寄与する可能性がある特徴量があります。

時間の経過に伴うモデルのパフォーマンスとデータの整合性をトレースする必要があります。

モデルが特定の予測を行う理由を把握する必要があります。

例: ゴールデン・バンクのモデル・モニタリング

ゴールデン・バンクのデータ・サイエンティストは、 Watson OpenScale を使用して、デプロイされた「住宅ローン承認モデル」をモニターし、それが正確であり、すべてのゴールデン・バンクの住宅ローン申請者を公平に扱うことを確認します。 モデルのモニターをセットアップするためにノートブックを実行し、 Watson OpenScale ユーザー・インターフェースを使用して構成を微調整します。 データ・サイエンティストは、 Watson OpenScale 品質モニターおよび公平性モニターからの指標を使用して、モデルがどの程度効果を予測しているか、およびバイアスのある結果を生成しているかどうかを判別します。 また、ローン申請者に意思決定を説明できるように、モデルがどのように意思決定に対応するかについての洞察も得られます。


5. ML ライフサイクルの自動化

チームは、 Watson Pipelinesを使用して、MLOps と AI のライフサイクルを自動化および簡素化できます。

使用できるもの できること 最適な使用のタイミング
Watson Pipelines パイプラインを使用して、ノートブック、 Data Refinery、および機械学習パイプラインを自動化する反復可能なスケジュール済みフローを、データ取り込みからモデルのトレーニング、テスト、およびデプロイメントに至るまで作成します。 MLOps フロー内の一部またはすべてのステップを自動化する必要があります。

例: ゴールデン・バンクの自動 ML ライフサイクル

ゴールデン・バンクのデータ・サイエンティストは、パイプラインを使用して、完全なデータ・サイエンスと MLOps のライフサイクルとプロセスを自動化し、モデルのリトレーニング・プロセスを簡素化できます。


データ・サイエンスおよび MLOps のチュートリアル

チュートリアル 説明 チュートリアルの専門知識
モデル・モニターを使用した AI パイプラインのオーケストレーション モデルをトレーニングし、デプロイメント・スペースにプロモートし、モデルをデプロイします。 ノートブックを実行します。
データ統合による AI パイプラインのオーケストレーション データを準備し、モデルをトレーニングするエンドツーエンド・パイプラインを作成します。 Watson Pipelines ドラッグ・アンド・ドロップ・インターフェースを使用して、パイプラインを作成します。

もっと見る

親トピック: データ・ファブリック・ソリューションの概要

WatsonX Search