AutoAIモデルのトレーニング、機械学習モデルの実行、またはデプロイされたモデルのスコアリングを行う際には、watsonx.aiランタイムリソースを使用します。このリソースはキャパシティユニット時間(CUH)で測定されます。 基礎モデルを使用して推論サービスを実行する際には、消費されたトークンまたは時間単位で測定されるwatsonx.aiランタイムリソースを使用します。 このトピックでは、選択できるさまざまなプラン、含まれるサービス、およびコンピューティングリソースの計算方法について説明します。
watsonx.ai'Cloud Pak for Data as a Serviceと'watsonxランタイム
watsonx.aiランタイムプランには、watsonx.aiの詳細が含まれています。 Watsonx.ai は、基盤モデルと機械学習モデルによって強化された、生成 AI を処理するための統合ツールのスタジオです。 Cloud Pak for Data as a Serviceを使用している場合、リソース・ユニットを使用して基盤モデルおよび計量プロンプトの推論を処理するための詳細は、プランに適用されません。
watsonx.aiについては、こちらを参照:
watsonx と Cloud Pak for Data as a Service の両方を有効にしている場合、2 つのプラットフォームを切り替えることができます。
watsonx.aiランタイムプランの選択
watsonx.aiRuntime プランは、watsonx.aiRuntime を使用してトレーニングおよびデプロイしたモデル、および基礎モデルで使用したプロンプトに対する課金方法を管理します。 ニーズに合わせて、以下のプランを選択してください。
- ライトは、容量が制限された無料プランです。 watsonx.aiRuntime を評価中で、その機能を試してみたい場合は、このプランをお選びください。 Liteプランでは、watsonx上でfoundation modelのチューニング実験を行うことはできません。
- Essentialsは、お客様のニーズに合わせて柔軟にモデルを構築、展開、管理できる従量制のプランです。
- Standardは、組織のあらゆる機械学習ニーズをサポートするように設計された、大容量のエンタープライズ・プランです。 容量単位時間は定額で提供され、リソース単位の消費は従量制である。
資源消費の追跡方法
メータリングと課金目的のために、機械学習モデルや展開、または基礎モデルは、これらの課金指標で測定される:
キャパシティ・ユニット・アワー(CUH)測定は、使用量および課金目的のために、単位時間あたりのリソース消費量を計算する。 CUH は、Foundation Model の推論を除く、すべてのwatsonx.aiRuntime アクティビティを測定する。
リソースユニット(RU)は、foundation modelの推論消費量を測定する。 推論は、プロンプトに応答して出力を生成するために基盤モデルを呼び出すプロセスです。 各RUは1,000トークンに相当する。 トークンは、基盤モデル・プロンプトの入力または出力で使用されるテキストの基本単位 (通常は 4 文字または 0.75 ワード) です。 トークンの詳細については、トークンとトークン化を参照してください。
アワーレートは、watsonx.aiにインポートしてデプロイするカスタム基礎モデルの料金を計算するために使用されます。 料金は構成サイズに基づき、モデル展開の期間中課金されます。
ページレートは、ドキュメントのテキスト抽出の料金を計算するために使用されます。 ページレートはプランごとに設定されている。
資源消費量の測定は?
キャパシティ・ユニット・アワー(CUH)またはリソース・ユニット(RU)のどちらで測定されるにせよ、リソースは資産の稼働のために消費されるものであり、ツールでの作業のために消費されるものではない。 つまり、AutoAI,で実験を定義するのに消費料金はかからないが、実験パイプラインを訓練するために実験を実行するのには料金がかかる。 同様に、ディプロイメントスペースの作成やディプロイメントジョブの定義には料金はかかりませんが、ディプロイメントジョブの実行やディプロイメントされたアセットに対する推論には料金がかかります。 Jupyterノートブック、RStudioアセット、Bashスクリプト、カスタムモデルのデプロイメントなど、継続的に実行されるアセットは、それらがアクティブである限りリソースを消費します。
watsonx.aiランタイムプラン詳細
ライトプランは、watsonx.ai の機能を評価するのに十分な無料のリソースを提供します。 その後、プランの機能と容量に基づいて、組織のニーズに合った有料プランを選択できます。
プランの特徴 | ライト | 基本情報 | 標準 |
---|---|---|---|
CUHにおけるwatsonx.aiランタイムの使用状況 | 月20CUH | CUH料金に消費時間を乗じたCUH請求額 | 2500CUH/月 |
トークンまたはリソース単位 (RU) での基盤モデルの推論 | 毎月50,000トークン | 使用量に応じて課金(1000トークン=1RU) | 使用量に応じて課金(1000トークン=1RU) |
配置ごとの最大並列 Decision Optimization バッチジョブ | 2 | 5 | 100 |
スペースごとに保持される展開ジョブ | 100 | 1000 | 3000 |
アイドリングまでの展開時間 | 1 日 | 3 日 | 3 日 |
HIPAA サポート | 該当なし | 該当なし | ダラス・リージョンのみ IBM Cloudアカウントで有効にする必要があります |
プランIDごとのレート制限 | 毎秒2回の推論リクエスト | 毎秒8回の推論リクエスト | 毎秒8回の推論リクエスト |
カスタム・ファンデーション・モデルのサポート | 使用不可 | 使用不可 | コンフィギュレーションによる時間課金 |
文書テキスト抽出 | 使用不可 | ページごとの請求 | ページごとの請求 |
watsonx.aiランタイムの価格詳細
課金レートと資源消費量の計算方法の詳細については、こちらをご覧ください:
詳細情報
- ジェネレーティブAI資産の請求詳細
- 機械学習資産の請求詳細
- コンピューティング・リソースの割り当てと消費のトラッキングに関する詳細は、ランタイムの使用状況を参照してください。
親トピック: watsonx.aiランタイム