0 / 0

カスタム・ 基盤モデル導入計画

最終更新: 2025年7月03日
カスタム・ 基盤モデル導入計画

watsonx.ai を使用して推論用のカスタム基盤モデル展開するための考慮事項と要件を確認する。

カスタム・ 基盤モデル配備を準備する際には、以下の計画上の注意点を確認してください:

カスタム・ファンデーション・モデルの要件と使用上の注意

配備可能なカスタムモデルは、これらの要件を満たさなければならない:

  • 独自のカスタムモデルをアップロードして使用できるのは、watsonx.ai のスタンダードプランのみです。

  • モデルは、 サポートされているモデル・アーキテクチャ・タイプで構築されなければならない。

  • モデルのファイルリストには、config.jsonファイルが含まれていなければなりません。

  • 汎用モデル:モデルは、サポートされているトランスフォーマーライブラリを使用した safetensors 形式であり、 tokenizer.json ファイルを含む必要があります。 モデルが safetensors 形式ではなく、 tokenizer.json ファイルを含まないが、その他の互換性がある場合、変換ユーティリティはモデル準備プロセスの一部として必要な変更を行います。

  • 時系列モデル: モデルディレクトリには tsfm_config.json ファイルが必要です。 Hugging Face (model_type: tinytimemixer) でホストされている時系列モデルは、このファイルを含まないことができる。 モデルがダウンロードされ、展開されるときにファイルがなければ、予測は失敗する。 予測の問題を回避するためには、モデルをダウンロードする際に追加のステップを実行する必要があります。

    重要:
    • 汎用モデル:カスタム基盤モデルサポートされている transformers ライブラリで保存されていることを確認する必要があります。 カスタム 基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、 デプロイメント失敗する可能性があります。 詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。
    • カスタム・ 基盤モデルデプロイするプロジェクトまたはスペースに、関連する watsonx.ai Runtime インスタンスがあることを確認してください。 プロジェクトまたはスペースの「管理」タブを開いて確認してください。

対応モデル・アーキテクチャ

以下の表は、 watsonx.ai で推論するためのカスタム・モデルとして配置できるモデル・アーキテクチャの一覧です。 モデルのアーキテクチャは、サポートされている量子化方法、並列テンソル、配置構成サイズ、ソフトウェア仕様に関する情報とともにリストアップされている。

注:

様々な仕様のソフトウェアをデプロイメントおります:

  • watsonx-cfm-caikit-1.0 ソフトウェア仕様はTGIランタイムエンジンをベースにしている。
  • watsonx-cfm-caikit-1.1 ソフトウェア仕様は、 vLLM ランタイムエンジンをベースにしている。 性能面ではこちらの方が優れているが、すべてのモデル・アーキテクチャで利用できるわけではない。
  • watsonx-tsfm-runtime-1.0 ソフトウェア仕様は時系列モデル用に設計されている。 これは、 watsonx-tsfm-runtime-1.0 推論ランタイムをベースにしている。

汎用モデル:

表 1. サポートされるモデル・アーキテクチャ、量子化手法、並列テンソル、 デプロイメント構成サイズ、汎用モデルのソフトウェア仕様
モデル・アーキテクチャ・タイプ 基盤モデルの例 量子化法 並列テンソルmultiGpu 導入の構成 ソフトウェア仕様
bloom bigscience/bloom-3b, bigscience/bloom-560m 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono 該当なし いいえ watsonx-cfm-caikit-1.0
exaone lgai-exaone/exaone-3.0-7.8B-Instruct 該当なし いいえ watsonx-cfm-caikit-1.1
falcon tiiuae/falcon-7b 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gemma google/gemma-2b 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
gemma2 google/gemma-2-9b 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
gpt_bigcode bigcode/starcoder, bigcode/gpt_bigcode-santacoder gptq はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj EleutherAI/gpt-j-6b 該当なし いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt2 openai-community/gpt2-large 該当なし いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
granite ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab 該当なし いいえ watsonx-cfm-caikit-1.1
jais core42/jais-13b 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
llama DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf gptq はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin 該当なし いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 gptq いいえ watsonx-cfm-caikit-1.1
mpt mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b 該当なし いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mt5 google/mt5-small, google/mt5-xl 該当なし いいえ watsonx-cfm-caikit-1.0
nemotron nvidia/Minitron-8B-Base 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
olmo allenai/OLMo-1B-hf, allenai/OLMo-7B-hf 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
persimmon adept/persimmon-8b-base, adept/persimmon-8b-chat 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
phi microsoft/phi-2, microsoft/phi-1_5 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
phi3 microsoft/Phi-3-mini-4k-instruct 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
qwen DeepSeek-R1 (distilled variant) 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
qwen2 Qwen/Qwen2-7B-Instruct-AWQ AWQ はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.1
t5 google/flan-t5-large, google/flan-t5-small 該当なし はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0

時系列モデル:

表 2. サポートされるモデル・アーキテクチャ、量子化手法、並列テンソル、 デプロイメント構成サイズ、時系列モデルのソフトウェア仕様
モデル・アーキテクチャ・タイプ 基盤モデルの例 量子化法 並列テンソルmultiGpu 導入の構成 ソフトウェア仕様
tinytimemixer ibm-granite/granite-timeseries-ttm-r2 該当なし 該当なし スモール、ミディアム、ラージ、エクストララージ watsonx-tsfm-runtime-1.0
重要:
  • IBM は、表 1 および表 2 に示すモデル・アーキテクチャのみを認証する。 vLLM 推論フレームワークでサポートされている他のアーキテクチャのモデルを使用することはできますが、 IBM、サポートされていないアーキテクチャや互換性のない機能を持つ基盤モデルデプロイしたことによるデプロイメント失敗はサポートされません。
  • llama 3.1モデルのデプロイが失敗する可能性があります。 この問題に対処するには、トラブルシューティングに記載されている手順を参照してください。
  • watsonx-cfm-caikit-1.1 ソフトウェア仕様では、 codegenmt5t5 タイプのモデルを展開することはできません。
  • モデルが並列テンソルをサポートしていない場合、使用できる設定は Small だけです。 Smallがサポートする設定よりも多くのパラメータを使ってモデルをトレーニングした場合は、失敗します。 これは、カスタムモデルのいくつかをデプロイできないことを意味する。 制限の詳細については、リソース利用ガイドラインをご覧ください。

カスタム基盤モデル前提条件の詳細を収集する

  1. 基盤モデル内にファイル config.json が存在するか確認する。 デプロイメント、クラウドストレージにアップロードされた後、 基盤モデルコンテンツフォルダ内にファイル config.json が存在するかどうかを確認します。

  2. config.json ファイルを開き、 基盤モデル サポートされているアーキテクチャを使用していることを確認する。

  3. tokenizer.json 、モデルの内容が .safetensors 形式であることを確認するために、 基盤モデルモデルのファイル一覧を表示します。

    重要:

    カスタム・ 基盤モデル、サポートされている transformers ライブラリと共に保存されていることを確認する必要があります。 カスタム 基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、 デプロイメント失敗する可能性があります。 詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。

例を見てみよう:

Hugging Face に保存されている falcon-40b モデルについては、 ファイルとバージョン をクリックしてファイル構造を表示し、 config.json を確認します

でホストされている 基盤モデル内の config.json ファイルをチェックします。 Hugging Face

サンプルモデルは、サポートされているfalconアーキテクチャのバージョンを使用しています。

基盤モデルサポートされているアーキテクチャのチェック

このサンプルモデルはtokenizer.jsonファイルを含み、.safetensorsフォーマットになっています:

基盤モデルファイル一覧

モデルがこれらの要件を満たしていない場合、モデル資産を作成してモデルをデプロイすることはできません。

資源利用ガイドライン

時系列モデル

時系列モデルの推論ランタイムは、これらのハードウェア仕様 Small, Medium, Large をサポートしています、 Extra large

最大同時ユーザー数とペイロード特性に基づいて、カスタム時系列モデルにハードウェア仕様を割り当てます:

同時ユーザー数とペイロードの特性に基づく、ハードウェア仕様の割り当てに関する推奨事項
単変量時系列 多変量時系列(系列×ターゲット) 中間 特大
1000 23x100 6 12 25 GB 50
500 15x80 10 21 42 85
250 15x40 ※13 26 53 106
125 15x20 ※13 27 54 109
60 15x10 14 28 56 112
30時間まで 15x5 14 28 56 113

汎用モデル

汎用モデルでは、カスタム基盤モデルサポートするために3つの構成が用意されている: Small Medium および Large。 カスタム・ 基盤モデル モデルに最適な構成を決定するには、以下のガイドラインを参照してください:

  • 26B パラメータの下で、Small コンフィギュレーションを任意のダブルバイト精度モデルに割り当て、テストと検証を行う。
  • 27B と 53B のパラメータの間の任意のダブルバイト精度モデルに Medium コンフィギュレーションを割り当て、テストと検証を行う。
  • 54B から 106B パラメータ間の任意のダブルバイト精度モデルに Large コンフィギュレーションを割り当て、テストと検証を行う。
ヒント:

選択したコンフィギュレーションがテストと検証の段階で失敗した場合、次に利用可能な上位コンフィギュレーションを検討する。 例えば、Smallの設定が失敗したら、Mediumの設定を試してください。 現在のところ、Largeのコンフィギュレーションが最も高いコンフィギュレーションです。

表 2. ハードウェア構成とモデル例
構成 適切なモデルの例
llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
中間 codellama-34b
llama-3-70b
llama-2-70b

カスタム・ 基盤モデル制限と制約

watsonx.aiでカスタム基礎モデルをデプロイして使用する方法について、これらの制限に注意してください。

カスタム・ファウンデーション・モデルの展開における制限事項

  • カスタム・ 基盤モデル デプロイメント需要が高く、それに対応するためのリソースが限られているため、 watsonx.ai、1つの IBM Cloud アカウントにつき4つの小型モデル、2つの中型モデル、または1つの大型モデルのいずれかをデプロイメント上限としています。 これらの制限を超えてカスタム・ 基盤モデルインポートしようとすると、その旨が通知され、アンケートを通じてご意見をお聞かせいただくことになります。 これは、お客様のニーズを理解し、将来の容量アップグレードを計画するのに役立ちます。
  • 時系列モデルはパラメータを取らない。 カスタム時系列モデルをデプロイするときは、パラメータを指定しないでください。 カスタム時系列モデルのデプロイ時にパラメータを指定した場合、そのパラメータは何の効果も持たない。
重要:要求された限度額の引き上げは保証されておらず、利用可能な容量に従うものとします。

カスタム・ 基盤モデル デプロイメント使用する際の制限事項

を使用してデプロイされた後のカスタム・ 基盤モデル使用に関する制限事項の一覧です。 watsonx.ai:

  • カスタム・ 基盤モデルチューニングすることはできない。
  • watsonx.governance を使用して、カスタム基盤モデルモデルのプロンプトテンプレートを評価または追跡することはできません。

この体験の改善にご協力ください

ご意見をお聞きになりたい方は、このリンクをクリックしてください。 皆様からのフィードバックは、今後のキャパシティアップグレードの計画や、 基盤モデル デプロイメント全体の向上に欠かせません。 ご協力ありがとう!

次のステップ

カスタム基盤モデルダウンロードとストレージの設定

親トピック カスタム基盤モデル展開