データ・サイエンスと MLOps のユース・ケース
データ分析とモデル作成を運用可能にするには、企業は統合されたシステムとプロセスを必要とします。 Cloud Pak for Data as a Service は、企業が機械学習モデルやその他のデータ・サイエンス・アプリケーションを開発してデプロイできるようにするためのプロセスとテクノロジーを提供します。
このビデオを視聴して、Data Science and MLOps ソリューションを実装するためのユース・ケースを確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
チャレンジ
Data Science and MLOps ユース・ケースを実装することで、企業の以下の課題を解決できます。
- 高品質データへのアクセス
- 組織は、データを使用してモデルを作成するデータ・サイエンス・チームに、高品質で管理されたデータへの容易なアクセスを提供する必要があります。
- モデルの構築およびデプロイの操作化
- 組織は、モデルを迅速かつ効率的に構築して実稼働環境にデプロイするために、反復可能なプロセスを実装する必要があります。
- モデルのモニターおよびリトレーニング
- 組織は、生産フィードバックに基づいてモデルのモニタリングとリトレーニングを自動化する必要があります。
例: ゴールデン・バンクの課題
ゴールデン・バンクは、オンライン・アプリケーション向けに低金利のモーゲージ更新を提供することでビジネスを拡大するために、データ・サイエンスと MLOps のプロセスを実装しています。 ゴールデン・バンクのデータ・サイエンティストは、リスクを回避し、すべての応募者を公平に扱う住宅ローン承認モデルを作成する必要があります。 また、モデルのパフォーマンスを最適化するために、モデルのリトレーニングを自動化する必要もあります。
プロセス
企業にデータ・サイエンスと MLOps を実装するために、組織は以下のプロセスに従うことができます。
Cloud Pak for Data as a Service の Watson Studio、 Watson Machine Learning、 Watson OpenScale、および IBM Knowledge Catalog サービスは、組織が Data Science and MLOps ソリューションを実装するために必要なツールとプロセスを提供します。
2. モデルの作成とトレーニング
データに基づいて予測的な洞察を得るために、データ・サイエンティスト、ビジネス・アナリスト、および機械学習エンジニアは、モデルを作成してトレーニングすることができます。 データ・サイエンティストは、 Cloud Pak for Data as a Service サービスを使用して AI モデルを構築し、ビジネス問題の解決に役立つ予測を行うために適切なアルゴリズムと最適化が使用されるようにします。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
AutoAI | Watson Studio の AutoAI を使用して、アルゴリズムを自動的に選択し、機能を設計し、パイプライン候補を生成し、モデル・パイプライン候補をトレーニングします。 次に、ランク付けされたパイプラインを評価し、モデルとして最適に保存します。 トレーニングされたモデルをスペースにデプロイするか、 AutoAI から好みのモデル・トレーニング・パイプラインをノートブックにエクスポートして詳細化します。 |
トレーニング・パイプラインとモデルの適切なセットを素早く作成するための高度な自動化された方法が必要です。 生成されたパイプラインをエクスポートして、それらを詳細化できるようにする必要があります。 |
ノートブックおよびスクリプト | Watson Studio でノートブックとスクリプトを使用して、 Python または R で独自のフィーチャー・エンジニアリング・モデルのトレーニング・コードと評価コードを作成します。 プロジェクトで使用可能なトレーニング・データ・セット、またはデータベース、データレイク、オブジェクト・ストレージなどのデータ・ソースへの接続を使用します。 任意のオープン・ソース・フレームワークおよびライブラリーを使用してコーディングします。 |
Python または R のコーディング・スキルを使用して、モデルの作成、トレーニング、および評価に使用するコードを完全に制御できます。 |
SPSS Modeler のフロー | Watson Studio で SPSS Modeler フローを使用して、独自のモデルのトレーニング・フロー、評価フロー、およびスコアリング・フローを作成します。 プロジェクトで使用可能なトレーニング・データ・セット、またはデータベース、データレイク、オブジェクト・ストレージなどのデータ・ソースへの接続を使用します。 | データを探索し、モデルのトレーニング、評価、およびスコアリングのフローを定義するための簡単な方法が必要です。 |
RStudio | RStudio で R を使用してデータを分析し、モデルを作成してテストします。 | R で作業するために開発環境を使用したいとします。 |
Decision Optimization | Watson Machine Learningを使用して、データの準備、モデルのインポート、問題の解決、シナリオの比較、データの視覚化、ソリューションの検索、レポートの作成、デプロイするモデルの保存を行います。 | 処方的分析の問題に対する最適なソリューションを見つけるには、何百万もの可能性を評価する必要があります。 |
統合学習 | 分散データを使用する共通モデルをトレーニングします。 | 複数の場所に分散しているデータを移動、結合、または共有することなく、モデルをトレーニングする必要があります。 |
例: ゴールデン・バンクのモデル構築とトレーニング
ゴールデン・バンクのデータ・サイエンティストは、予期しないリスクを回避し、すべての応募者を公平に扱うモデル「住宅ローン承認モデル」を作成します。 最初からモデルの履歴とパフォーマンスを追跡する必要があるため、モデル・ユース・ケースを「住宅ローン承認カタログ」に追加します。 彼らはノートブックを実行してモデルを構築し、どの申請者が住宅ローンの資格を満たしているかを予測します。 モデル・トレーニングの詳細は、モデル・ユース・ケースのメタデータとして自動的に取り込まれます。
3. モデルのデプロイ
作成した AI モデルを運用チーム・メンバーがデプロイすると、それらの AI モデルはアプリケーションで使用可能になり、アクションの駆動を助けるスコアリングや予測に利用できるようになります。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
スペース・ユーザー・インターフェース | スペース UI を使用して、モデルおよびその他の資産をプロジェクトからスペースにデプロイします。 | コラボレーション・ワークスペースにモデルをデプロイし、デプロイメント情報を表示したい。 |
例: ゴールデン・バンクのモデル・デプロイメント
ゴールデン・バンクのオペレーション・チーム・メンバーは、「住宅ローン承認モデル」をプロジェクトからデプロイメント・スペースにプロモートし、オンライン・モデル・デプロイメントを作成します。
4. デプロイ済みモデルのモニター
モデルをデプロイした後、それらのモデルをモニターして、パフォーマンスが良好であることを確認することが重要です。 データ・サイエンティストは、モデルのパフォーマンスとデータ整合性の問題を監視する必要があります。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
Watson OpenScale | 複数の特徴量にわたるモデルの公平性の問題をモニターします。 時間の経過に伴うモデルのパフォーマンスとデータの整合性をモニターします。 重み付けされた要因を使用して、モデルがどのように特定の予測に到達したかを説明します。 組織全体のモデルのガバナンスとライフサイクルを維持し、レポートします。 |
保護されている特徴量、または予測の公平性に寄与する可能性がある特徴量があります。 時間の経過に伴うモデルのパフォーマンスとデータの整合性をトレースする必要があります。 モデルが特定の予測を行う理由を把握する必要があります。 |
例: ゴールデン・バンクのモデル・モニタリング
ゴールデン・バンクのデータ・サイエンティストは、 Watson OpenScale を使用して、デプロイされた「住宅ローン承認モデル」をモニターし、それが正確であり、すべてのゴールデン・バンクの住宅ローン申請者を公平に扱うことを確認します。 モデルのモニターをセットアップするためにノートブックを実行し、 Watson OpenScale ユーザー・インターフェースを使用して構成を微調整します。 データ・サイエンティストは、 Watson OpenScale 品質モニターおよび公平性モニターからの指標を使用して、モデルがどの程度効果を予測しているか、およびバイアスのある結果を生成しているかどうかを判別します。 また、ローン申請者に意思決定を説明できるように、モデルがどのように意思決定に対応するかについての洞察も得られます。
5. AI ライフサイクルの自動化
チームは、オーケストレーション・パイプラインを使用して、MLOps と AI のライフサイクルを自動化し、簡素化することができます。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
オーケストレーション・パイプライン | パイプラインを使用して、ノートブック、 Data Refinery、および機械学習パイプラインを自動化する反復可能なスケジュール済みフローを、データ取り込みからモデルのトレーニング、テスト、およびデプロイメントに至るまで作成します。 | MLOps フロー内の一部またはすべてのステップを自動化する必要があります。 |
例: ゴールデン・バンクの自動 ML ライフサイクル
ゴールデン・バンクのデータ・サイエンティストは、パイプラインを使用して、完全なデータ・サイエンスと MLOps のライフサイクルとプロセスを自動化し、モデルのリトレーニング・プロセスを簡素化できます。
データ・サイエンスおよび MLOps のチュートリアル
チュートリアル | 説明 | チュートリアルの専門知識 |
---|---|---|
モデル・モニターを使用した AI パイプラインのオーケストレーション | モデルをトレーニングし、デプロイメント・スペースにプロモートし、モデルをデプロイします。 | ノートブックを実行します。 |
データ統合による AI パイプラインのオーケストレーション | データを準備し、モデルをトレーニングするエンドツーエンド・パイプラインを作成します。 | オーケストレーション・パイプラインのドラッグ・アンド・ドロップ・インターフェースを使用して、パイプラインを作成します。 |
もっと見る
親トピック: ユース・ケース