Watson Machine Learning のプランとコンピュート・リソースの使用
AutoAI モデルのトレーニング、機械学習モデルの実行、またはデプロイ済みモデルのスコアリングを行う際に、キャパシティー・ユニット時間 (CUH) で測定される Watson Machine Learning リソースを使用します。 基盤モデルを使用して推論サービスを実行する場合は、リソース単位 (RU) で測定される Watson Machine Learning リソースを使用します。 このトピックでは、選択できるさまざまなプラン、含まれるサービス、およびコンピューティング・リソースの計算方法について説明します。
Cloud Pak for Data as a Service および watsonx の Watson Machine Learning
Watson Machine Learning プランには、 watsonx.aiの詳細が含まれています。 Watsonx.ai は、基盤モデルと機械学習モデルによって強化された、生成 AI を処理するための統合ツールのスタジオです。 Cloud Pak for Data as a Serviceを使用している場合、リソース・ユニットを使用して基盤モデルおよび計量プロンプトの推論を処理するための詳細は、プランに適用されません。
watsonx と Cloud Pak for Data as a Serviceの両方が有効になっている場合は、2 つのプラットフォームを切り替えることができます。
Watson Machine Learning プランの選択
プランの比較を表示し、詳細を検討して、ニーズに合ったプランを選択します。
- Watson Machine Learning のプラン
- キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)
- Watson Machine Learning プランの詳細
- キャパシティー・ユニット時間の計量
- CUH および RU 使用量のモニター
Watson Machine Learning のプラン
Watson Machine Learning プランは、 Watson Machine Learning を使用してトレーニングおよびデプロイしたモデル、および基盤モデルで使用するプロンプトに対する課金方法を制御します。 ニーズに合わせて、以下のプランを選択してください。
- ライトは、容量が制限された無料プランです。 Watson Machine Learning を評価する目的で、機能を試す場合は、このプランを選択します。 ライト・プランでは、 watsonxでのファウンデーション・モデル・チューニング・エクスペリメントの実行はサポートされていません。
- Essentials は従量課金 (PAYG) プランで、お客様のニーズに合わせてモデルを作成、デプロイ、および管理する柔軟性を提供します。
- 標準 は、組織のすべての機械学習ニーズをサポートするように設計された大容量エンタープライズ・プランです。 キャパシティー・ユニット時間は定額で提供されますが、リソース・ユニット使用量は従量課金です。
プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。
キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)
計量と請求の目的で、機械学習モデルとデプロイメントまたは基盤モデルは、以下の単位で測定されます。
キャパシティー・ユニット時間 (CUH) は、使用量と請求の目的で、ユニット時間当たりの計算リソース使用量を測定します。 CUH は、基盤モデルの推論を除き、すべての Watson Machine Learning アクティビティーを測定します。
リソース単位 (RU) は、基盤モデルの使用量を測定します。 推論は、プロンプトに応答して出力を生成するために基盤モデルを呼び出すプロセスです。 各 RU は 1,000 トークンに相当します。 トークンは、基盤モデル・プロンプトの入力または出力で使用されるテキストの基本単位 (通常は 4 文字または 0.75 ワード) です。 使用要件に対応するプランを選択します。
レート制限 は、特定の Watson Machine Learning プラン・インスタンスのファウンデーション・モデルに対して処理される 1 秒当たりの推論要求の数をモニターし、制限します。 有料プランのレート制限は、無料ライト・プランのレート制限よりも高くなります。
CUH または RU 使用量の測定値は何ですか?
キャパシティー・ユニット時間 (CUH) またはリソース単位 (RU) で測定されたリソースは、ツールでの作業ではなく、実行中の資産に対して消費されます。 つまり、実験を定義するための消費料金は発生しません。AutoAI,ただし、実験パイプラインをトレーニングするための実験の実行には料金がかかります。 同様に、デプロイメント・スペースの作成またはデプロイメント・ジョブの定義には課金されませんが、デプロイメント・ジョブの実行またはデプロイ済み資産に対する推論には課金されます。 Jupyter ノートブック、RStudio アセット、Bash スクリプトなど、継続的に実行されるアセットは、アクティブである限りリソースを消費します。
Watson Machine Learning プランの詳細
ライト・プランでは、 watsonx.aiの機能を評価するための十分な無料リソースが提供されます。 その後、プランの機能と容量に基づいて、組織のニーズに合った有料プランを選択できます。
プランの機能 | ライト | 基本情報 | Standard |
---|---|---|---|
CUH での Machine Learning の使用法 | 20 CUH/月 | CUH 単価に使用時間を掛けたものに基づく CUH 請求 | 2500 CUH/月 |
トークンまたはリソース単位 (RU) での基盤モデルの推論 | 1 カ月当たり 50,000 個のトークン | 使用量の請求 (1000 トークン = 1 RU) | 使用量の請求 (1000 トークン = 1 RU) |
デプロイメントごとの最大並列 Decision Optimization バッチ・ジョブ数 | 2 | 5 | 100 |
スペースごとに保存されるデプロイメント・ジョブ | 100 | 1000 | 3000 |
デプロイメントのアイドル時間 | 1 日 | 3 日 | 3 日 |
HIPAA サポート | NA | NA | ダラス・リージョンのみ IBM Cloud アカウントで有効にする必要があります |
プラン ID ごとのレート制限 | 1 秒当たり 2 つの推論要求 | 1 秒当たり 8 個の推論要求 | 1 秒当たり 8 個の推論要求 |
カスタム基盤モデルのサポート | 使用不可 | 使用不可 | 構成に応じて課金 |
すべてのプランの場合:
- 基本モデル推論リソース単位 (RU) は、プロンプト・ラボの推論 (入出力を含む) に使用できます。 つまり、入力用に入力したプロンプトは、生成された出力に加えてカウントされます。 (watsonx のみ)
- 基盤モデルの推論は、ダラス、フランクフルト、ロンドン、および東京のデータ・センターから利用できます。 (watsonx のみ)
- Tuning Studio のファウンデーション・モデル・チューニングは、ダラス、フランクフルト、ロンドン、および東京のデータ・センターから入手できます。 (watsonx のみ)
- モデル・クラスは RU 率を決定します。 RU 当たりの価格は、モデル・クラスによって異なります。 (watsonx のみ)
- トレーニングのキャパシティー・ユニット時間 (CUH) レートの使用量は、トレーニング・ツール、ハードウェア仕様、およびランタイム環境に基づいています。
- デプロイメントのキャパシティー・ユニット時間 (CUH) レートの使用量は、デプロイメント・タイプ、ハードウェア仕様、およびソフトウェア仕様に基づきます。
- Watson Machine Learning では、単一のデプロイメント・スペースごとに保持されるデプロイメント・ジョブの数に制限があります。 制限を超えると、既存のジョブを削除するか、プランをアップグレードするまで、新しいデプロイメント・ジョブを作成できません。 デフォルトでは、ジョブ・メタデータは 30 日後に自動削除されます。 この値は、ジョブの作成時にオーバーライドできます。 ジョブの管理を参照してください。
- アイドル時間とは、評価要求間で展開がアクティブであると見なされる時間のことです。 デプロイメントが特定の期間に対するスコアリング要求を受信しない場合、そのデプロイメントは非アクティブまたはアイドルとして扱われ、SPSS 以外のすべてのフレームワークで請求処理が停止します。
- プランでは、少なくとも指定されたレート制限が許可されます。実際のレート制限は、指定された制限よりも高くすることができます。 例えば、ライト・プランでは、エラーを出さずに 1 秒当たり 2 件を超える要求を処理できます。 有料プランがあり、エラーのあるレート制限に達していると思われる場合は、 IBM サポートにお問い合わせください。
プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。
リソース単位計量 (watsonx)
リソース単位の請求は、基盤モデルの請求クラスのレートにリソース単位 (RU) の数を乗算したものに基づきます。 リソース・ユニットは、基盤モデル推論の入出力からの 1000 個のトークンに相当します。 3 つの基盤モデルの請求クラスの RU レートが異なります。 テキスト・ストリングをベクトル化する埋め込みモデルは、異なる料金で請求されます。
モデル・クラス別のリソース単位の請求レート
モデル請求クラス | USDでのRUあたりの価格 |
---|---|
クラス 1 | $0.0006 |
クラス 2 | $0.0018 |
クラス 3 | $0.0050 |
クラス C1 | $0.0001 |
クラス 5 | $0.00025 |
クラス 7 | $0.016 |
ミストラル ラージ | $0.01 |
ファウンデーション・モデルのリソース単位の請求レート
以下のモデルでは、入力トークンと出力トークンの請求レートは同じです。
モデル | 発信元 | 請求クラス | USDでのRUあたりの価格 |
---|---|---|---|
granite-13b-instruct-v2 | IBM | クラス 1 | $0.0006 /RU |
granite-13b-chat-v2 | IBM | クラス 1 | $0.0006 /RU |
granite-7b-lab | IBM | クラス 1 | $0.0006 /RU |
granite-8b-japanese | IBM | クラス 1 | $0.0006 /RU |
granite-20b-multilingual | IBM | クラス 1 | $0.0006 /RU |
granite-3b-code-instruct | IBM | クラス 1 | $0.0006 /RU |
granite-8b-code-instruct | IBM | クラス 1 | $0.0006 /RU |
granite-20b-code-instruct | IBM | クラス 1 | $0.0006 /RU |
granite-34b-code-instruct | IBM | クラス 1 | $0.0006 /RU |
allam-1-13b-instruct | サードパーティー | クラス 2 | $0.0018 /RU |
codellama-34b-instruct-hf | サードパーティー | クラス 2 | $0.0018 /RU |
elyza-japanese-llama-2-7b-instruct | サードパーティー | クラス 2 | $0.0018 /RU |
flan-t5-xl-3b | オープン・ソース | クラス 1 | $0.0006 /RU |
flan-t5-xxl-11b | オープン・ソース | クラス 2 | $0.0018 /RU |
flan-ul2-20b | オープン・ソース | クラス 3 | $0.0050 /RU |
jais-13b-chat | オープン・ソース | クラス 2 | $0.0018 /RU |
llama-3-1-8b-instruct | サードパーティー | クラス 1 | $0.0006 /RU |
llama-3-1-70b-instruct | サードパーティー | クラス 2 | $0.0018 /RU |
llama-3-8b-instruct | サードパーティー | クラス 1 | $0.0006 /RU |
llama-3-70b-instruct | サードパーティー | クラス 2 | $0.0018 /RU |
llama-2-13b-chat | サードパーティー | クラス 1 | $0.0006 /RU |
llama-2-70b-chat | サードパーティー | クラス 2 | $0.0018 /RU |
llama2-13b-dpo-v7 | サードパーティー | クラス 2 | $0.0018 /RU |
ミストラルラージ | サードパーティー | ミストラル ラージ | $0.01 RUあたり |
mixtral-8x7b-instruct-v01 | オープン・ソース | クラス 1 | $0.0006 /RU |
mt0-xxl-13b | オープン・ソース | クラス 2 | $0.0018 /RU |
以下のモデルでは、入力トークンと出力トークンの課金率が異なります。 価格は米ドル表示。
モデル | 発信元 | 入力トークン | 出力トークン |
---|---|---|---|
llama-3-405b-instruct | メタ | クラス3: $0.0050 RUあたり | クラス7:1RUあたり0.016 |
組み込みモデルのリソース単位の請求レート
組み込みモデルは、センテンスをベクトルに変換して、類似したテキストをより正確に比較および取得します。
モデル | 発信元 | 請求クラス | USDでのRUあたりの価格 |
---|---|---|---|
slate.125m.english.rtrvr-v2 | IBM | クラス C1 | $0.0001 /RU |
slate.125m.english.rtrvr | IBM | クラス C1 | $0.0001 /RU |
slate.30m.english.rtrvr-v2 | IBM | クラス C1 | $0.0001 /RU |
slate.30m.english.rtrvr | IBM | クラス C1 | $0.0001 /RU |
all-MiniLM-L12-v2 | オープン・ソース | クラス C1 | $0.0001 /RU |
multilingual-e5-large | オープン・ソース | クラス C1 | $0.0001 /RU |
カスタム・ファンデーション・モデルの1時間あたりの請求料金
カスタム基礎モデルを展開するには、標準プランが必要です。 課金料金はモデルのハードウェア構成によって異なり、モデルのホスティングと推論に適用されます。 課金はモデルが正常に配置されたときに開始され、モデルが削除されるまで継続されます。
構成サイズ | 1時間あたりの請求レート(米ドル |
---|---|
小 | $5.22 |
中 | $10.40 |
大 | $20.85 |
カスタム基盤モデルの構成の選択に関する詳細は、カスタム基盤モデルのデプロイを計画するを参照してください。
文書テキスト抽出の請求料金
watsonx.ai REST API のドキュメント テキスト抽出メソッドを使用して、高度に構造化され、図や表を使って情報を伝える PDF ファイルを、AI モデルに適した JSON ファイル形式に変換します。 詳しくは、文書からテキストを抽出するを参照してください。
請求は、処理されたページ数とプランの種類に基づいて行われる。
プラン・タイプ | ページあたりの価格(米ドル |
---|---|
必須 | $0.038 |
Standard | $0.030 |
キャパシティー・ユニット時間の計量 (watsonx および Watson Machine Learning)
CUH 使用量は、タスクに適用する計算ハードウェア・リソースと、ソフトウェア仕様やモデル・タイプなどの他の要因によって影響を受けます。
資産タイプ別の CUH 使用率
資産タイプ | キャパシティー・タイプ | 1 時間当たりのキャパシティー・ユニット |
---|---|---|
AutoAI エクスペリメント | 8 vCPU および 32 GB RAM | 20 |
Decision Optimization トレーニング | 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM |
6 7 9 13 |
Decision Optimization のデプロイメント | 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM |
30 40 50 60 |
Machine Learning モデル (トレーニング、評価、またはスコアリング) |
1 vCPU および 4 GB RAM 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM |
0.5 1 2 4 8 |
ファウンデーション・モデル・チューニング・エクスペリメント (watsonx のみ) |
NVIDIA A100 80GB GPU | 43 |
デプロイメントおよびフレームワーク・タイプによる CUH の使用量
CUH 使用量は、以下の数式を使用して計算されます:
デプロイメント・タイプ | フレームワーク | CUH 計算 |
---|---|---|
オンライン | AutoAI、AI 機能、SPSS、Scikit-Learn カスタム・ライブラリー、 Tensorflow、RShiny | deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
オンライン | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
バッチ | すべてのフレームワーク | job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
例えば、15 分間実行される Decision Optimization バッチ・デプロイメント・ジョブについて考えてみます。 リソース消費量は次のように計算されます。15 分 = 0.25 時間、2 つのノード上、2 つの vCPU と 8 GB RAM。 この組み合わせの結果、CUH 率は 30 になるため、ジョブが実行されるたびに 0.25 * 2 * 30 (15 CUH に相当) が消費されます。
リソース使用量のモニター
プロジェクトまたはスペースで所有または共同作業しているアセットのリソース使用状況を追跡できます。 アカウント所有者または管理者の場合は、アカウント全体の CUH、RU の使用状況または時間単位の請求料金を追跡できます。
プロジェクトにおけるリソースの使用状況の追跡
プロジェクト内の CUH または RU の消費量または時間単位の使用状況を監視するには:
プロジェクトの 「管理」 タブにナビゲートします。
「リソース」 をクリックして、プロジェクトまたはスペース内の資産のリソース使用量の要約を確認したり、特定の資産のリソース使用量の詳細を確認したりします。
アカウントのリソース使用状況の追跡
IBM Cloud アカウント所有者または管理者、あるいは Watson Machine Learning サービス所有者は、「環境ランタイム」ページでアカウントのランタイム使用量をトラッキングできます。 詳しくは、 リソースのモニターを参照してください。
ノートブックでの機械学習の CUH 使用量の追跡
ノートブックのキャパシティー・ユニット時間を計算するには、以下を使用します。
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
次に例を示します。
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
結果: 5.49 CUH
詳しくは、 IBM Watson Machine Learning API 資料の「サービス・インスタンス」セクションを参照してください。
もっと見る
親トピック: Watson Machine Learning