Watson Machine Learning のプランとコンピュート・リソースの使用

資料の英語版に戻る

AutoAI モデルのトレーニング、機械学習モデルの実行、またはデプロイ済みモデルのスコアリングを行う際に、キャパシティー・ユニット時間 (CUH) で測定される Watson Machine Learning リソースを使用します。基盤モデルを使用して推論サービスを実行する場合は、リソース単位 (RU) で測定される Watson Machine Learning リソースを使用します。このトピックでは、選択できるさまざまなプラン、含まれるサービス、およびコンピューティング・リソースの計算方法について説明します。

Cloud Pak for Data as a Service および watsonx の Watson Machine Learning

重要:

Watson Machine Learning プランには、 watsonx.aiの詳細が含まれています。 Watsonx.ai は、基盤モデルと機械学習モデルによって強化された、生成 AI を処理するための統合ツールのスタジオです。 Cloud Pak for Data as a Serviceを使用している場合、リソース・ユニットを使用して基盤モデルおよび計量プロンプトの推論を処理するための詳細は、プランに適用されません。

watsonx と Cloud Pak for Data as a Serviceの両方が有効になっている場合は、2 つのプラットフォームを切り替えることができます。

Watson Machine Learning プランの選択

プランの比較を表示し、詳細を検討して、ニーズに合ったプランを選択します。

Watson Machine Learning のプラン
キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)
Watson Machine Learning プランの詳細
キャパシティー・ユニット時間の計量
CUH および RU 使用量のモニター

Watson Machine Learning のプラン

Watson Machine Learning プランは、 Watson Machine Learning を使用してトレーニングおよびデプロイしたモデル、および基盤モデルで使用するプロンプトに対する課金方法を制御します。ニーズに合わせて、以下のプランを選択してください。

ライトは、容量が制限された無料プランです。 Watson Machine Learning を評価する目的で、機能を試す場合は、このプランを選択します。ライト・プランでは、 watsonxでのファウンデーション・モデル・チューニング・エクスペリメントの実行はサポートされていません。
Essentials は従量課金 (PAYG) プランで、お客様のニーズに合わせてモデルを作成、デプロイ、および管理する柔軟性を提供します。
標準は、組織のすべての機械学習ニーズをサポートするように設計された大容量エンタープライズ・プランです。キャパシティー・ユニット時間は定額で提供されますが、リソース・ユニット使用量は従量課金です。

プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。

キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)

計量と請求の目的で、機械学習モデルとデプロイメントまたは基盤モデルは、以下の単位で測定されます。

キャパシティー・ユニット時間 (CUH) は、使用量と請求の目的で、ユニット時間当たりの計算リソース使用量を測定します。 CUH は、基盤モデルの推論を除き、すべての Watson Machine Learning アクティビティーを測定します。
リソース単位 (RU) は、基盤モデルの使用量を測定します。推論は、プロンプトに応答して出力を生成するために基盤モデルを呼び出すプロセスです。各 RU は 1,000 トークンに相当します。トークンは、基盤モデル・プロンプトの入力または出力で使用されるテキストの基本単位 (通常は 4 文字または 0.75 ワード) です。使用要件に対応するプランを選択します。
レート制限 は、特定の Watson Machine Learning プラン・インスタンスのファウンデーション・モデルに対して処理される 1 秒当たりの推論要求の数をモニターし、制限します。有料プランのレート制限は、無料ライト・プランのレート制限よりも高くなります。

Watson Machine Learning プランの詳細

ライト・プランでは、 watsonx.aiの機能を評価するための十分な無料リソースが提供されます。その後、プランの機能と容量に基づいて、組織のニーズに合った有料プランを選択できます。

テーブル1。計画の詳細
プランの機能	ライト	基本情報	Standard
CUH での Machine Learning の使用法	20 CUH/月	CUH 単価に使用時間を掛けたものに基づく CUH 請求	2500 CUH/月
トークンまたはリソース単位 (RU) での基盤モデルの推論	1 カ月当たり 50,000 個のトークン	使用量の請求 (1000 トークン = 1 RU)	使用量の請求 (1000 トークン = 1 RU)
デプロイメントごとの最大並列 Decision Optimization バッチ・ジョブ数	2	5	100
スペースごとに保存されるデプロイメント・ジョブ	100	1000	3000
デプロイメントのアイドル時間	1 日	3 日	3 日
HIPAA サポート	NA	NA	ダラス・リージョンのみ IBM Cloud アカウントで有効にする必要があります
プラン ID ごとのレート制限	1 秒当たり 2 つの推論要求	1 秒当たり 8 個の推論要求	1 秒当たり 8 個の推論要求

注: Essentials から Standard にアップグレードする場合、Essentials プランに戻すことはできません。新規計画を作成する必要があります。

すべてのプランの場合:

基本モデル推論リソース単位 (RU) は、プロンプト・ラボの推論 (入出力を含む) に使用できます。つまり、入力用に入力したプロンプトは、生成された出力に加えてカウントされます。 (watsonx のみ)
ファウンデーション・モデルの推論は、ダラス、フランクフルト、および東京のデータ・センターでのみ使用可能です。 (watsonx のみ)
チューニング・スタジオのファウンデーション・モデル・チューニングは、ダラス、フランクフルト、および東京のデータ・センターでのみ使用可能です。 (watsonx のみ)
RU レートは、3 つのモデル・クラスによって決定されます。 RU 当たりの価格は、モデル・クラスによって異なります。 (watsonx のみ)
トレーニングのキャパシティー・ユニット時間 (CUH) レートの使用量は、トレーニング・ツール、ハードウェア仕様、およびランタイム環境に基づいています。
デプロイメントのキャパシティー・ユニット時間 (CUH) レートの使用量は、デプロイメント・タイプ、ハードウェア仕様、およびソフトウェア仕様に基づきます。
Watson Machine Learning では、単一のデプロイメント・スペースごとに保持されるデプロイメント・ジョブの数に制限があります。制限を超えると、既存のジョブを削除するか、プランをアップグレードするまで、新しいデプロイメント・ジョブを作成できません。デフォルトでは、ジョブ・メタデータは 30 日後に自動削除されます。この値は、ジョブの作成時にオーバーライドできます。ジョブの管理を参照してください。
アイドル時間とは、評価要求間で展開がアクティブであると見なされる時間のことです。デプロイメントが特定の期間に対するスコアリング要求を受信しない場合、そのデプロイメントは非アクティブまたはアイドルとして扱われ、SPSS 以外のすべてのフレームワークで請求処理が停止します。
プランでは、少なくとも指定されたレート制限が許可されます。実際のレート制限は、指定された制限よりも高くすることができます。例えば、ライト・プランでは、エラーを出さずに 1 秒当たり 2 件を超える要求を処理できます。有料プランがあり、エラーのあるレート制限に達していると思われる場合は、 IBM サポートにお問い合わせください。

プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。

リソース単位計量 (watsonx)

リソース単位の請求は、基盤モデルの請求クラスのレートにリソース単位 (RU) の数を乗算したものに基づきます。リソース・ユニットは、基盤モデル推論の入出力からの 1000 個のトークンに相当します。 3 つの基盤モデルの請求クラスの RU レートが異なります。テキスト・ストリングをベクトル化する埋め込みモデルは、異なる料金で請求されます。

ファウンデーション・モデルのリソース単位の請求レート

テーブル2。ファウンデーション・モデルの請求詳細
モデルの	発信元	請求クラス	RU 当たりの価格
granite-13b-instruct-v2	IBM	クラス 1	$0.0006 /RU
granite-13b-chat-v2	IBM	クラス 1	$0.0006 /RU
granite-8b-japanese	IBM	クラス 1	$0.0006 /RU
granite-20b-multilingual	IBM	クラス 1	$0.0006 /RU
codellama-34b-instruct-hf	オープン・ソース	クラス 2	$0.0018 /RU
elyza-japanese-llama-2-7b-instruct	オープン・ソース	クラス 2	$0.0018 /RU
flan-t5-xl-3b	オープン・ソース	クラス 1	$0.0006 /RU
flan-t5-xxl-11b	オープン・ソース	クラス 2	$0.0018 /RU
flan-ul2-20b	オープン・ソース	クラス 3	$0.0050 /RU
jais-13b-chat	オープン・ソース	クラス 2	$0.0018 /RU
llama-3-8b-instruct	オープン・ソース	クラス 1	$0.0006 /RU
llama-3-70b-instruct	オープン・ソース	クラス 2	$0.0018 /RU
llama-2-13b-chat	オープン・ソース	クラス 1	$0.0006 /RU
llama-2-70b-chat	オープン・ソース	クラス 2	$0.0018 /RU
llama2-13b-dpo-v7	オープン・ソース	クラス 2	$0.0018 /RU
mixtral-8x7b-instruct-v01	オープン・ソース	クラス 1	$0.0006 /RU
mixtral-8x7b-instruct-v01-q	オープン・ソース	クラス 1	$0.0006 /RU
mt0-xxl-13b	オープン・ソース	クラス 2	$0.0018 /RU
starcoder-15.5b	オープン・ソース	クラス 2	$0.0018 /RU
merlinite-7b	オープン・ソース	クラス 1	$0.0006 /RU
granite-7b-lab	IBM	クラス 1	$0.0006 /RU

組み込みモデルのリソース単位の請求レート

組み込みモデルは、センテンスをベクトルに変換して、類似したテキストをより正確に比較および取得します。

テーブル3。モデル請求の詳細の組み込み
モデルの	発信元	請求クラス	RU 当たりの価格
slate.125m.english.rtrvr	IBM	クラス C1	$0.0001 /RU
slate.30m.english.rtrvr	IBM	クラス C1	$0.0001 /RU

キャパシティー・ユニット時間の計量 (watsonx および Watson Machine Learning)

CUH 使用量は、タスクに適用する計算ハードウェア・リソースと、ソフトウェア仕様やモデル・タイプなどの他の要因によって影響を受けます。

資産タイプ別の CUH 使用率

テーブル3。資産タイプ別の CUH 使用率
資産タイプ	キャパシティー・タイプ	1 時間当たりのキャパシティー・ユニット
AutoAI エクスペリメント	8 vCPU および 32 GB RAM	20
Decision Optimization トレーニング	2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM	6 7 9 13
Decision Optimization のデプロイメント	2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM	30 40 50 60
Machine Learning モデル (トレーニング、評価、またはスコアリング)	1 vCPU および 4 GB RAM 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM	0.5 1 2 4 8
ファウンデーション・モデル・チューニング・エクスペリメント (watsonx のみ)	NVIDIA A100 80GB GPU	43

デプロイメントおよびフレームワーク・タイプによる CUH の使用量

デプロイメントの CUH 使用量は、以下の数式を使用して計算されます。

テーブル4。デプロイメントおよびフレームワーク・タイプによる CUH の使用量
デプロイメント・タイプ	フレームワーク	CUH 計算
オンライン	AutoAI、 Python 関数およびスクリプト、 SPSS、Scikit-Learn カスタム・ライブラリー、 Tensorflow、RShiny	deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework
オンライン	Spark, PMML, Scikit-Learn, Pytorch, XGBoost	score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework
バッチ	すべてのフレームワーク	job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework

リソース使用量のモニター

所有している資産の CUH または RU の使用状況を追跡したり、プロジェクトまたはスペースでコラボレーションしたりすることができます。アカウント所有者または管理者は、アカウント全体の CUH または RU 使用量を追跡できます。

プロジェクトでの CUH または RU 使用量の追跡

プロジェクト内の CUH または RU 使用量をモニターするには、以下のようにします。

プロジェクトの 「管理」 タブにナビゲートします。
「リソース」 をクリックして、プロジェクトまたはスペース内の資産のリソース使用量の要約を確認したり、特定の資産のリソース使用量の詳細を確認したりします。

アカウントの CUH 使用量の追跡

IBM Cloud アカウント所有者または管理者、あるいは Watson Machine Learning サービス所有者は、「環境ランタイム」ページでアカウントのランタイム使用量をトラッキングできます。詳しくは、リソースのモニターを参照してください。

ノートブックでの機械学習の CUH 使用量の追跡

ノートブックのキャパシティー・ユニット時間を計算するには、以下を使用します。

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

次に例を示します。

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

結果: 5.49 CUH

詳しくは、 IBM Watson Machine Learning API 資料の「サービス・インスタンス」セクションを参照してください。

親トピック: Watson Machine Learning

Watson Machine Learning のプランとコンピュート・リソースの使用

Cloud Pak for Data as a Service および watsonx の Watson Machine Learning

Watson Machine Learning プランの選択

Watson Machine Learning のプラン

キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)

Watson Machine Learning プランの詳細

リソース単位計量 (watsonx)

ファウンデーション・モデルのリソース単位の請求レート

組み込みモデルのリソース単位の請求レート

キャパシティー・ユニット時間の計量 (watsonx および Watson Machine Learning)

資産タイプ別の CUH 使用率

デプロイメントおよびフレームワーク・タイプによる CUH の使用量

リソース使用量のモニター

プロジェクトでの CUH または RU 使用量の追跡

アカウントの CUH 使用量の追跡

ノートブックでの機械学習の CUH 使用量の追跡

もっと見る