AutoAIモデルのトレーニング、機械学習モデルの実行、またはデプロイされたモデルのスコアリングを行う際には、watsonx.aiランタイムリソースを使用します。このリソースはキャパシティユニット時間(CUH)で測定されます。 基礎モデルを使用して推論サービスを実行する際には、消費されたトークンまたは時間単位で測定されるwatsonx.aiランタイムリソースを使用します。 このトピックでは、選択できるさまざまなプラン、含まれるサービス、およびコンピューティング・リソースの計算方法について説明します。
watsonx.ai'Cloud Pak for Data as a Serviceと'watsonxランタイム
watsonx.aiランタイムプランには、watsonx.aiの詳細が含まれています。 Watsonx.ai は、基盤モデルと機械学習モデルによって強化された、生成 AI を処理するための統合ツールのスタジオです。 Cloud Pak for Data as a Serviceを使用している場合、リソース・ユニットを使用して基盤モデルおよび計量プロンプトの推論を処理するための詳細は、プランに適用されません。
watsonx と Cloud Pak for Data as a Serviceの両方が有効になっている場合は、2 つのプラットフォームを切り替えることができます。
watsonx.aiランタイムプランの選択
watsonx.aiRuntime プランは、watsonx.aiRuntime を使用してトレーニングおよびデプロイしたモデル、および基礎モデルで使用したプロンプトに対する課金方法を管理します。 ニーズに合わせて、以下のプランを選択してください。
- ライトは、容量が制限された無料プランです。 watsonx.aiRuntime を評価中で、その機能を試してみたい場合は、このプランをお選びください。 ライト・プランでは、 watsonxでのファウンデーション・モデル・チューニング・エクスペリメントの実行はサポートされていません。
- Essentials は従量課金 (PAYG) プランで、お客様のニーズに合わせてモデルを作成、デプロイ、および管理する柔軟性を提供します。
- 標準 は、組織のすべての機械学習ニーズをサポートするように設計された大容量エンタープライズ・プランです。 キャパシティー・ユニット時間は定額で提供されますが、リソース・ユニット使用量は従量課金です。
資源消費の追跡方法
メータリングと課金目的のために、機械学習モデルや展開、または基礎モデルは、これらの課金指標で測定される:
キャパシティ・ユニット・アワー(CUH)測定は、使用量および課金目的のために、単位時間あたりのリソース消費量を計算する。 CUH は、Foundation Model の推論を除く、すべてのwatsonx.aiRuntime アクティビティを測定する。
リソースユニット(RU)は、基礎モデルの推論消費量を測定する。 推論は、プロンプトに応答して出力を生成するために基盤モデルを呼び出すプロセスです。 各 RU は 1,000 トークンに相当します。 トークンは、基盤モデル・プロンプトの入力または出力で使用されるテキストの基本単位 (通常は 4 文字または 0.75 ワード) です。
アワーレートは、watsonx.aiにインポートしてデプロイするカスタム基礎モデルの料金を計算するために使用されます。 料金は構成サイズに基づき、モデル展開の期間中課金されます。
ページレートは、ドキュメントのテキスト抽出の料金を計算するために使用されます。 ページレートはプランごとに設定されている。
資源消費量の測定は?
キャパシティー・ユニット時間 (CUH) またはリソース単位 (RU) で測定されたリソースは、ツールでの作業ではなく、実行中の資産に対して消費されます。 つまり、実験を定義するための消費料金は発生しません。AutoAI,ただし、実験パイプラインをトレーニングするための実験の実行には料金がかかります。 同様に、デプロイメント・スペースの作成またはデプロイメント・ジョブの定義には課金されませんが、デプロイメント・ジョブの実行またはデプロイ済み資産に対する推論には課金されます。 Jupyterノートブック、RStudioアセット、Bashスクリプト、カスタムモデルのデプロイメントなど、継続的に実行されるアセットは、それらがアクティブである限りリソースを消費します。
watsonx.aiランタイムプラン詳細
ライト・プランでは、 watsonx.aiの機能を評価するための十分な無料リソースが提供されます。 その後、プランの機能と容量に基づいて、組織のニーズに合った有料プランを選択できます。
プランの機能 | ライト | 基本情報 | Standard |
---|---|---|---|
CUHにおけるwatsonx.aiランタイムの使用状況 | 20 CUH/月 | CUH 単価に使用時間を掛けたものに基づく CUH 請求 | 2500 CUH/月 |
トークンまたはリソース単位 (RU) での基盤モデルの推論 | 1 カ月当たり 50,000 個のトークン | 使用量の請求 (1000 トークン = 1 RU) | 使用量の請求 (1000 トークン = 1 RU) |
デプロイメントごとの最大並列 Decision Optimization バッチ・ジョブ数 | 2 | 5 | 100 |
スペースごとに保存されるデプロイメント・ジョブ | 100 | 1000 | 3000 |
デプロイメントのアイドル時間 | 1 日 | 3 日 | 3 日 |
HIPAA サポート | NA | NA | ダラス・リージョンのみ IBM Cloud アカウントで有効にする必要があります |
プラン ID ごとのレート制限 | 1 秒当たり 2 つの推論要求 | 1 秒当たり 8 個の推論要求 | 1 秒当たり 8 個の推論要求 |
カスタム基盤モデルのサポート | 使用不可 | 使用不可 | コンフィギュレーションによる時間課金 |
文書テキスト抽出 | 使用不可 | ページごとの請求 | ページごとの請求 |
watsonx.aiランタイムの価格詳細
課金レートと資源消費量の計算方法の詳細については、こちらをご覧ください:
もっと見る
- ジェネレーティブAI資産の請求詳細
- 機械学習資産の請求詳細
- コンピューティング・リソースの割り当てと消費のトラッキングに関する詳細は、ランタイムの使用状況を参照してください。
親トピック: watsonx.aiランタイム