watsonx.data アクセラレータのSparkを使用して、 watsonx.ai とバッチスコアリングでMLモデルを構築する
Building ML models in watsonx.ai and batch scoring with Spark in watsonx.data acceleratorは、 watsonx.ai でMLモデルをトレーニングして永続化し、 watsonx.data でSparkを使用してこれらのモデルを大規模にバッチスコアリングするエンドツーエンドのワークフローをガイドします。
このアクセラレータを使用して、 watsonx.ai でMLモデルをトレーニングして永続化し、 watsonx.data でSparkを使用して大規模にバッチスコアリングするというエンドツーエンドのワークフローをセットアップしてみてください。
まず、Resource hub にログインし、 Building ML models in watsonx.ai and batch scoring with Spark in watsonx.data sample project に基づいて新しいプロジェクトを作成します。
このアクセラレーターは、データのロードからモデルのトレーニング、最適な結果の選択、モデルリポジトリへの最適モデルの保存まで、エンドツーエンドのAIライフサイクルを自動化するパイプラインを使用するスケーラブルなMLパターンと実装を提供します。 個々のツールや資産操作することなく、一度フローを作成・設定すれば、オンデマンドまたはスケジュールで実行できます。
以下のプロセスが含まれる:
- トレーニングデータのロード
- scikit-learn MLモデルまたは AutoAI モデルを共通のトレーニングデータセットでトレーニングする
- 結果を比較し、最適なモデルを選択する。 次にモデルをモデルリポジトリに永続化します
- UDFを使用してモデルをSparkモデルに変換し、このモデルに対してスケールでバッチスコアリングを実行する
このグラフは、このワークフローのパイプラインビューを示している:
このグラフは、 watsonx.ai でMLモデルを構築し、 watsonx.data アクセラレーターのSparkでバッチスコアリングする際に使用されるスケーラブルMLパターンの詳細なアーキテクチャ図を示している:
モデルを持参する
すでに学習済みのモデルがある場合は、モデルの学習ステップをスキップして、独自のデータとMLモデルをこの watsonx.ai プロジェクトに直接ロードするように、ワークフローを簡単にカスタマイズできます。 その後、Sparkでバッチスコアリングを行う。 サポートされるモデルタイプの詳細は、 watsonx.ai サポートされるソフトウェア仕様のドキュメントページに記載されています。
スパークランタイムのカスタマイズ
watsonx.data で使用されているスパークエンジンを、ニーズに合わせてカスタマイズすることができます。 例えば、カスタム分析のためにサードパーティのライブラリをインストールしたい場合や、クラスタ構成の一部をファイン・チューニングしたい場合などです。 詳細は以下のドキュメントページをご覧ください:
Sparkの柔軟な使用方法 watsonx.data
このパターンでは、 watsonx.data の Spark エンジンとして Analytics Engine が使用され、このプロジェクトの一部であるノートブックでは、 Python で記述された Spark ジョブを投入するために Spark API を使用する例が示されている。 watsonx.data で Spark を使用する方法は他にもあります。例えば、R や Scala で書かれた Spark ジョブを実行することができます。 詳細はこれらのリストを参照のこと:
各種スパークエンジン
でSparkランタイムに接続する複数の方法 watsonx.data
親トピック AIソリューションアクセラレータ