Watson Machine Learning のプランとコンピュート・リソースの使用
AutoAI モデルのトレーニング、機械学習モデルの実行、またはデプロイ済みモデルのスコアリングを行う際に、キャパシティー・ユニット時間 (CUH) で測定される Watson Machine Learning リソースを使用します。 ファウンデーション・モデルを使用して推論サービスを実行する場合は、リソース単位 (RU) で測定される Watson Machine Learning リソースを使用します。 このトピックでは、選択できるさまざまなプラン、含まれるサービス、およびコンピューティング・リソースの計算方法について説明します。
Cloud Pak for Data as a Service および watsonx の Watson Machine Learning
Watson Machine Learning プランには、 watsonx.aiの詳細が含まれています。 Watsonx.ai は、ファウンデーション・モデルと機械学習モデルによって強化された、生成 AI を処理するための統合ツールのスタジオです。 Cloud Pak for Data as a Serviceを使用している場合、リソース・ユニットを使用してファウンデーション・モデルおよび計量プロンプトの推論を処理するための詳細は、プランに適用されません。
watsonx と Cloud Pak for Data as a Serviceの両方が有効になっている場合は、2 つのプラットフォームを切り替えることができます。
Watson Machine Learning プランの選択
プランの比較を表示し、詳細を検討して、ニーズに合ったプランを選択します。
- Watson Machine Learning のプラン
- キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)
- Watson Machine Learning プランの詳細
- キャパシティー・ユニット時間の計量
- CUH および RU 使用量のモニター
Watson Machine Learning のプラン
Watson Machine Learning プランは、 Watson Machine Learning を使用してトレーニングおよびデプロイしたモデル、およびファウンデーション・モデルで使用するプロンプトに対する課金方法を制御します。 ニーズに合わせて、以下のプランを選択してください。
- ライトは、容量が制限された無料プランです。 Watson Machine Learning を評価する目的で、機能を試す場合は、このプランを選択します。
- Essentials は従量課金 (PAYG) プランで、お客様のニーズに合わせてモデルを作成、デプロイ、および管理する柔軟性を提供します。
- 標準 は、組織のすべての機械学習ニーズをサポートするように設計された大容量エンタープライズ・プランです。 キャパシティー・ユニット時間は定額で提供されますが、リソース・ユニット使用量は従量課金です。
プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。
キャパシティー・ユニット時間 (CUH)、トークン、およびリソース単位 (RU)
計量と請求の目的で、機械学習モデルとデプロイメントまたはファウンデーション・モデルは、以下の単位で測定されます。
キャパシティー・ユニット時間 (CUH) は、使用量と請求の目的で、ユニット時間当たりの計算リソース使用量を測定します。 CUH は、ファウンデーション・モデルの推論を除き、すべての Watson Machine Learning アクティビティーを測定します。
リソース単位 (RU) は、ファウンデーション・モデルの使用量を測定します。 推論は、プロンプトに応答して出力を生成するためにファウンデーション・モデルを呼び出すプロセスです。 各 RU は 1,000 トークンに相当します。 トークンは、ファウンデーション・モデル・プロンプトの入力または出力で使用されるテキストの基本単位 (通常は 4 文字または 0.75 ワード) です。 使用要件に対応するプランを選択します。
Watson Machine Learning プランの詳細
ライト・プランでは、 watsonx.aiの機能を評価するための十分な無料リソースが提供されます。 その後、プランの機能と容量に基づいて、組織のニーズに合った有料プランを選択できます。
プランの機能 | ライト | 基本情報 | Standard |
---|---|---|---|
CUH での Machine Learning の使用法 | 20 CUH/月 | CUH 単価に使用時間を掛けたものに基づく CUH 請求 | 2500 CUH/月 |
トークンまたはリソース単位 (RU) でのファウンデーション・モデルの推論 | 1 カ月当たり 50,000 個のトークン | 使用量の請求 (1000 トークン = 1 RU) | 使用量の請求 (1000 トークン = 1 RU) |
デプロイメントごとの最大並列 Decision Optimization バッチ・ジョブ数 | 2 | 5 | 100 |
スペースごとに保存されるデプロイメント・ジョブ | 100 | 1000 | 3000 |
デプロイメントのアイドル時間 | 1 日 | 3 日 | 3 日 |
HIPAA サポート | NA | NA | ダラス・リージョンのみ IBM Cloud アカウントで有効にする必要があります |
すべてのプランの場合:
- 基本モデル推論リソース・ユニット (RU) は、入力や出力などのプロンプト・ラボ推論に使用できます。 つまり、入力用に入力したプロンプトは、生成された出力に加えてカウントされます。 (watsonx のみ)
- ファウンデーション・モデルの推論は、ダラスとフランクフルトのデータ・センターでのみ使用可能です。 (watsonx のみ)
- RU レートは、3 つのモデル・クラスによって決定されます。 RU 当たりの価格は、モデル・クラスによって異なります。 (watsonx のみ)
- トレーニングのキャパシティー・ユニット時間 (CUH) レートの使用量は、トレーニング・ツール、ハードウェア仕様、およびランタイム環境に基づいています。
- デプロイメントのキャパシティー・ユニット時間 (CUH) レートの使用量は、デプロイメント・タイプ、ハードウェア仕様、およびソフトウェア仕様に基づきます。
- Watson Machine Learning では、単一のデプロイメント・スペースごとに保持されるデプロイメント・ジョブの数に制限があります。 制限を超えると、既存のジョブを削除するか、プランをアップグレードするまで、新しいデプロイメント・ジョブを作成できません。 デフォルトでは、ジョブ・メタデータは 30 日後に自動削除されます。 この値は、ジョブの作成時にオーバーライドできます。 ジョブの管理を参照してください。
- アイドル時間とは、評価要求間で展開がアクティブであると見なされる時間のことです。 デプロイメントが特定の期間に対するスコアリング要求を受信しない場合、そのデプロイメントは非アクティブまたはアイドルとして扱われ、SPSS 以外のすべてのフレームワークで請求処理が停止します。
プランの詳細と料金設定については、『IBM Cloud Machine Learning』を参照してください。
リソース単位計量 (watsonx)
リソース単位の請求は、ファウンデーション・モデルの請求クラスのレートにリソース単位 (RU) の数を乗算したものに基づきます。 リソース・ユニットは、ファウンデーション・モデル推論の入出力からの 1000 個のトークンに相当します。 3 つのファウンデーション・モデルの請求クラスの RU レートが異なります。
モデル | 発信元 | 請求クラス | RU 当たりの価格 | 使用可能な領域 |
---|---|---|---|---|
flan-t5-xxl-11b | オープン・ソース | クラス 2 | $0.0018 /RU | ダラス (フランクフルト) |
flan-ul2-20b | オープン・ソース | クラス 3 | $0.0050 /RU | ダラス (フランクフルト) |
gpt-neox-20b | オープン・ソース | クラス 3 | $0.0050 /RU | ダラス |
mpt-7b-instruct2 | オープン・ソース | クラス 1 | $0.0006 /RU | ダラス (フランクフルト) |
mt0-xxl-13b | オープン・ソース | クラス 2 | $0.0018 /RU | ダラス |
starcoder-15.5b | オープン・ソース | クラス 2 | $0.0018 /RU | ダラス |
llama-2-70b-cha | オープン・ソース | クラス 3 | $0.005 /RU | ダラス |
キャパシティー・ユニット時間の計量 (watsonx および Watson Machine Learning)
CUH 使用量は、タスクに適用する計算ハードウェア・リソースと、ソフトウェア仕様やモデル・タイプなどの他の要因によって影響を受けます。
資産タイプ別の CUH 使用率
資産タイプ | キャパシティー・タイプ | 1 時間当たりのキャパシティー・ユニット |
---|---|---|
AutoAI エクスペリメント | 8 vCPU および 32 GB RAM | 20 |
Decision Optimization トレーニング | 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM |
6 7 9 13 |
Decision Optimization のデプロイメント | 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM |
30 40 50 60 |
Machine Learning モデル (トレーニング、評価、またはスコアリング) |
1 vCPU および 4 GB RAM 2 vCPU および 8 GB RAM 4 vCPU および 16 GB RAM 8 vCPU および 32 GB RAM 16 vCPU および 64 GB RAM |
0.5 1 2 4 8 |
デプロイメントおよびフレームワーク・タイプによる CUH の使用量
デプロイメントの CUH 使用量は、以下の数式を使用して計算されます。
デプロイメント・タイプ | フレームワーク | CUH 計算 |
---|---|---|
オンライン | AutoAI、AI 機能、SPSS、Scikit-Learn カスタム・ライブラリー、 Tensorflow、RShiny | deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework |
オンライン | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework |
バッチ | すべてのフレームワーク | job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework |
リソース使用量のモニター
所有している資産の CUH または RU の使用状況を追跡したり、プロジェクトまたはスペースでコラボレーションしたりすることができます。 アカウント所有者または管理者は、アカウント全体の CUH または RU 使用量を追跡できます。
プロジェクトでの CUH または RU 使用量の追跡
プロジェクト内の CUH または RU 使用量をモニターするには、以下のようにします。
プロジェクトの 「管理」 タブにナビゲートします。
「リソース」 をクリックして、プロジェクトまたはスペース内の資産のリソース使用量の要約を確認したり、特定の資産のリソース使用量の詳細を確認したりします。
アカウントの CUH 使用量の追跡
IBM Cloud アカウント所有者または管理者、あるいは Watson Machine Learning サービス所有者は、「環境ランタイム」ページでアカウントのランタイム使用量をトラッキングできます。 詳しくは、 リソースのモニターを参照してください。
ノートブックでの機械学習の CUH 使用量の追跡
ノートブックのキャパシティー・ユニット時間を計算するには、以下を使用します。
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
次に例を示します。
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
結果: 5.49 CUH
詳しくは、 IBM Watson Machine Learning API 資料の「サービス・インスタンス」セクションを参照してください。
もっと見る
親トピック: Watson Machine Learning