0 / 0
資料の 英語版 に戻る
Watson Machine Learning のプランとコンピュート・リソースの使用

Watson Machine Learning のプランとコンピュート・リソースの使用

AutoAI モデルのトレーニング、機械学習モデルの実行、またはデプロイ済みモデルのスコアリングを行う際に、キャパシティー・ユニット時間 (CUH) で測定される Watson Machine Learning リソースを使用します。 基盤モデルを使用して推論サービスを実行する場合は、リソース単位 (RU) で測定される Watson Machine Learning リソースを使用します。 このトピックでは、選択できるさまざまなプラン、含まれるサービス、およびコンピューティング・リソースの計算方法について説明します。

Cloud Pak for Data as a Service および watsonx の Watson Machine Learning

重要:

Watson Machine Learning プランには、 watsonx.aiの詳細が含まれています。 Watsonx.ai は、基盤モデルと機械学習モデルによって強化された、生成 AI を処理するための統合ツールのスタジオです。 Cloud Pak for Data as a Serviceを使用している場合、リソース・ユニットを使用して基盤モデルおよび計量プロンプトの推論を処理するための詳細は、プランに適用されません。

watsonx と Cloud Pak for Data as a Serviceの両方が有効になっている場合は、2 つのプラットフォームを切り替えることができます。

Watson Machine Learning プランの選択

プランの比較を表示し、詳細を検討して、ニーズに合ったプランを選択します。

Watson Machine Learning のプラン

Watson Machine Learning プランは、 Watson Machine Learning を使用してトレーニングおよびデプロイしたモデル、および基盤モデルで使用するプロンプトに対する課金方法を制御します。 ニーズに合わせて、以下のプランを選択してください。

  • ライトは、容量が制限された無料プランです。 Watson Machine Learning を評価する目的で、機能を試す場合は、このプランを選択します。 ライト・プランでは、 watsonxでのファウンデーション・モデル・チューニング・エクスペリメントの実行はサポートされていません。
  • Essentials は従量課金 (PAYG) プランで、お客様のニーズに合わせてモデルを作成、デプロイ、および管理する柔軟性を提供します。
  • 標準 は、組織のすべての機械学習ニーズをサポートするように設計された大容量エンタープライズ・プランです。 キャパシティー・ユニット時間は定額で提供されますが、リソース・ユニット使用量は従量課金です。

プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。

キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)

計量と請求の目的で、機械学習モデルとデプロイメントまたは基盤モデルは、以下の単位で測定されます。

  • キャパシティー・ユニット時間 (CUH) は、使用量と請求の目的で、ユニット時間当たりの計算リソース使用量を測定します。 CUH は、基盤モデルの推論を除き、すべての Watson Machine Learning アクティビティーを測定します。

  • リソース単位 (RU) は、基盤モデルの使用量を測定します。 推論は、プロンプトに応答して出力を生成するために基盤モデルを呼び出すプロセスです。 各 RU は 1,000 トークンに相当します。 トークンは、基盤モデル・プロンプトの入力または出力で使用されるテキストの基本単位 (通常は 4 文字または 0.75 ワード) です。 使用要件に対応するプランを選択します。

  • レート制限 は、特定の Watson Machine Learning プラン・インスタンスのファウンデーション・モデルに対して処理される 1 秒当たりの推論要求の数をモニターし、制限します。 有料プランのレート制限は、無料ライト・プランのレート制限よりも高くなります。

CUH または RU 使用量の測定値は何ですか?

キャパシティー・ユニット時間 (CUH) またはリソース単位 (RU) で測定されたリソースは、ツールでの作業ではなく、実行中の資産に対して消費されます。 つまり、実験を定義するための消費料金は発生しません。AutoAI,ただし、実験パイプラインをトレーニングするための実験の実行には料金がかかります。 同様に、デプロイメント・スペースの作成またはデプロイメント・ジョブの定義には課金されませんが、デプロイメント・ジョブの実行またはデプロイ済み資産に対する推論には課金されます。 Jupyter ノートブック、RStudio 資産、Bash スクリプトなど、継続的に実行される資産は、アクティブになっている限りリソースを消費します。

Watson Machine Learning プランの詳細

ライト・プランでは、 watsonx.aiの機能を評価するための十分な無料リソースが提供されます。 その後、プランの機能と容量に基づいて、組織のニーズに合った有料プランを選択できます。

表 1. 計画の詳細
プランの機能 ライト 基本情報 Standard
CUH での Machine Learning の使用法 20 CUH/月 CUH 単価に使用時間を掛けたものに基づく CUH 請求 2500 CUH/月
トークンまたはリソース単位 (RU) での基盤モデルの推論 1 カ月当たり 50,000 個のトークン 使用量の請求 (1000 トークン = 1 RU) 使用量の請求 (1000 トークン = 1 RU)
デプロイメントごとの最大並列 Decision Optimization バッチ・ジョブ数 2 5 100
スペースごとに保存されるデプロイメント・ジョブ 100 1000 3000
デプロイメントのアイドル時間 1 日 3 日 3 日
HIPAA サポート NA NA ダラス・リージョンのみ
IBM Cloud アカウントで有効にする必要があります
プラン ID ごとのレート制限 1 秒当たり 2 つの推論要求 1 秒当たり 8 個の推論要求 1 秒当たり 8 個の推論要求

注: Essentials から Standard にアップグレードする場合、Essentials プランに戻すことはできません。 新規計画を作成する必要があります。

すべてのプランの場合:

  • 基本モデル推論リソース単位 (RU) は、プロンプト・ラボの推論 (入出力を含む) に使用できます。 つまり、入力用に入力したプロンプトは、生成された出力に加えてカウントされます。 (watsonx のみ)
  • 基盤モデルの推論は、ダラス、フランクフルト、ロンドン、および東京のデータ・センターから利用できます。 (watsonx のみ)
  • Tuning Studio のファウンデーション・モデル・チューニングは、ダラス、フランクフルト、ロンドン、および東京のデータ・センターから入手できます。 (watsonx のみ)
  • モデル・クラスは RU 率を決定します。 RU 当たりの価格は、モデル・クラスによって異なります。 (watsonx のみ)
  • トレーニングのキャパシティー・ユニット時間 (CUH) レートの使用量は、トレーニング・ツール、ハードウェア仕様、およびランタイム環境に基づいています。
  • デプロイメントのキャパシティー・ユニット時間 (CUH) レートの使用量は、デプロイメント・タイプ、ハードウェア仕様、およびソフトウェア仕様に基づきます。
  • Watson Machine Learning では、単一のデプロイメント・スペースごとに保持されるデプロイメント・ジョブの数に制限があります。 制限を超えると、既存のジョブを削除するか、プランをアップグレードするまで、新しいデプロイメント・ジョブを作成できません。 デフォルトでは、ジョブ・メタデータは 30 日後に自動削除されます。 この値は、ジョブの作成時にオーバーライドできます。 ジョブの管理を参照してください。
  • アイドル時間とは、評価要求間で展開がアクティブであると見なされる時間のことです。 デプロイメントが特定の期間に対するスコアリング要求を受信しない場合、そのデプロイメントは非アクティブまたはアイドルとして扱われ、SPSS 以外のすべてのフレームワークで請求処理が停止します。
  • プランでは、少なくとも指定されたレート制限が許可されます。実際のレート制限は、指定された制限よりも高くすることができます。 例えば、ライト・プランでは、エラーを出さずに 1 秒当たり 2 件を超える要求を処理できます。 有料プランがあり、エラーのあるレート制限に達していると思われる場合は、 IBM サポートにお問い合わせください。

プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。

リソース単位計量 (watsonx)

リソース単位の請求は、基盤モデルの請求クラスのレートにリソース単位 (RU) の数を乗算したものに基づきます。 リソース・ユニットは、基盤モデル推論の入出力からの 1000 個のトークンに相当します。 3 つの基盤モデルの請求クラスの RU レートが異なります。 テキスト・ストリングをベクトル化する埋め込みモデルは、異なる料金で請求されます。

モデル・クラス別のリソース単位の請求レート

モデル請求クラス RU 当たりの価格
クラス 1 $0.0006
クラス 2 $0.0018
クラス 3 $0.0050
クラス C1 $0.0001
クラス 5 $0.00025
クラス 7 $0.035
ミストラル ラージ $0.01

ファウンデーション・モデルのリソース単位の請求レート

以下のモデルでは、入力トークンと出力トークンの請求レートは同じです。

表 2. ファウンデーション・モデルの請求詳細
モデル 発信元 請求クラス RU 当たりの価格
granite-13b-instruct-v2 IBM クラス 1 $0.0006 /RU
granite-13b-chat-v2 IBM クラス 1 $0.0006 /RU
granite-7b-lab IBM クラス 1 $0.0006 /RU
granite-8b-japanese IBM クラス 1 $0.0006 /RU
granite-20b-multilingual IBM クラス 1 $0.0006 /RU
granite-3b-code-instruct IBM クラス 1 $0.0006 /RU
granite-8b-code-instruct IBM クラス 1 $0.0006 /RU
granite-20b-code-instruct IBM クラス 1 $0.0006 /RU
granite-34b-code-instruct IBM クラス 1 $0.0006 /RU
allam-1-13b-instruct サードパーティー クラス 2 $0.0018 /RU
codellama-34b-instruct-hf サードパーティー クラス 2 $0.0018 /RU
elyza-japanese-llama-2-7b-instruct サードパーティー クラス 2 $0.0018 /RU
flan-t5-xl-3b オープン・ソース クラス 1 $0.0006 /RU
flan-t5-xxl-11b オープン・ソース クラス 2 $0.0018 /RU
flan-ul2-20b オープン・ソース クラス 3 $0.0050 /RU
jais-13b-chat オープン・ソース クラス 2 $0.0018 /RU
llama-3-8b-instruct サードパーティー クラス 1 $0.0006 /RU
llama-3-70b-instruct サードパーティー クラス 2 $0.0018 /RU
llama-2-13b-chat サードパーティー クラス 1 $0.0006 /RU
llama-2-70b-chat サードパーティー クラス 2 $0.0018 /RU
llama2-13b-dpo-v7 サードパーティー クラス 2 $0.0018 /RU
merlinite-7b オープン・ソース クラス 1 $0.0006 /RU
ミストラルラージ サードパーティー ミストラル ラージ $0.01 RUあたり
mixtral-8x7b-instruct-v01 オープン・ソース クラス 1 $0.0006 /RU
mixtral-8x7b-instruct-v01-q オープン・ソース クラス 1 $0.0006 /RU
mt0-xxl-13b オープン・ソース クラス 2 $0.0018 /RU

組み込みモデルのリソース単位の請求レート

組み込みモデルは、センテンスをベクトルに変換して、類似したテキストをより正確に比較および取得します。

表 3. モデル請求の詳細の組み込み
モデル 発信元 請求クラス RU 当たりの価格
slate.125m.english.rtrvr IBM クラス C1 $0.0001 /RU
slate.30m.english.rtrvr IBM クラス C1 $0.0001 /RU
all-MiniLM-L12-v2 オープン・ソース クラス C1 $0.0001 /RU
multilingual-e5-large オープン・ソース クラス C1 $0.0001 /RU

キャパシティー・ユニット時間の計量 (watsonx および Watson Machine Learning)

CUH 使用量は、タスクに適用する計算ハードウェア・リソースと、ソフトウェア仕様やモデル・タイプなどの他の要因によって影響を受けます。

資産タイプ別の CUH 使用率

表 3. 資産タイプ別の CUH 使用率
資産タイプ キャパシティー・タイプ 1 時間当たりのキャパシティー・ユニット
AutoAI エクスペリメント 8 vCPU および 32 GB RAM 20
Decision Optimization トレーニング 2 vCPU および 8 GB RAM
4 vCPU および 16 GB RAM
8 vCPU および 32 GB RAM
16 vCPU および 64 GB RAM
6
7
9
13
Decision Optimization のデプロイメント 2 vCPU および 8 GB RAM
4 vCPU および 16 GB RAM
8 vCPU および 32 GB RAM
16 vCPU および 64 GB RAM
30
40
50
60
Machine Learning モデル
(トレーニング、評価、またはスコアリング)
1 vCPU および 4 GB RAM
2 vCPU および 8 GB RAM
4 vCPU および 16 GB RAM
8 vCPU および 32 GB RAM
16 vCPU および 64 GB RAM
0.5
1
2
4
8
ファウンデーション・モデル・チューニング・エクスペリメント
(watsonx のみ)
NVIDIA A100 80GB GPU 43

デプロイメントおよびフレームワーク・タイプによる CUH の使用量

CUH 使用量は、以下の数式を使用して計算されます:

表 4. デプロイメントおよびフレームワーク・タイプによる CUH の使用量
デプロイメント・タイプ フレームワーク CUH 計算
オンライン AutoAI、AI 機能、SPSS、Scikit-Learn カスタム・ライブラリー、 Tensorflow、RShiny deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
オンライン Spark, PMML, Scikit-Learn, Pytorch, XGBoost score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
バッチ すべてのフレームワーク job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework

例えば、15 分間実行される Decision Optimization バッチ・デプロイメント・ジョブについて考えてみます。 リソース消費量は次のように計算されます。15 分 = 0.25 時間、2 つのノード上、2 つの vCPU と 8 GB RAM。 この組み合わせの結果、CUH 率は 30 になるため、ジョブが実行されるたびに 0.25 * 2 * 30 (15 CUH に相当) が消費されます。

リソース使用量のモニター

所有している資産の CUH または RU の使用状況を追跡したり、プロジェクトまたはスペースでコラボレーションしたりすることができます。 アカウント所有者または管理者は、アカウント全体の CUH または RU 使用量を追跡できます。

プロジェクトでの CUH または RU 使用量の追跡

プロジェクト内の CUH または RU 使用量をモニターするには、以下のようにします。

  1. プロジェクトの 「管理」 タブにナビゲートします。

  2. 「リソース」 をクリックして、プロジェクトまたはスペース内の資産のリソース使用量の要約を確認したり、特定の資産のリソース使用量の詳細を確認したりします。

    プロジェクト内のリソースのトラッキング

アカウントの CUH 使用量の追跡

IBM Cloud アカウント所有者または管理者、あるいは Watson Machine Learning サービス所有者は、「環境ランタイム」ページでアカウントのランタイム使用量をトラッキングできます。 詳しくは、 リソースのモニターを参照してください。

ノートブックでの機械学習の CUH 使用量の追跡

ノートブックのキャパシティー・ユニット時間を計算するには、以下を使用します。

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

次に例を示します。

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

結果: 5.49 CUH

詳しくは、 IBM Watson Machine Learning API 資料の「サービス・インスタンス」セクションを参照してください。

もっと見る

親トピック: Watson Machine Learning

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細