カスタム・ 基盤モデル導入計画
watsonx.ai を使用して推論用のカスタム基盤モデル展開するための考慮事項と要件を確認する。
カスタム・ 基盤モデル配備を準備する際には、以下の計画上の注意点を確認してください:
- カスタム基盤モデルの要件と使用上の注意点を確認する
- Supported architectures for custom foundation models を確認して、あなたのモデルが互換性があることを確認してください。
- カスタム基盤モデル展開するための前提条件として必要な詳細を収集する。
- カスタム・ 基盤モデルハードウェア仕様を選択する.
- 配備の制限を確認する
- カスタム基盤モデルをデプロイできるように、タスク認証情報を有効にします。
カスタム・ファンデーション・モデルの要件と使用上の注意
配備可能なカスタムモデルは、これらの要件を満たさなければならない:
独自のカスタムモデルをアップロードして使用できるのは、watsonx.ai のスタンダードプランのみです。
モデルは、 サポートされているモデル・アーキテクチャ・タイプで構築されなければならない。
モデルのファイルリストには、
config.json
ファイルが含まれていなければなりません。汎用モデル:モデルは、サポートされているトランスフォーマーライブラリを使用した
safetensors
形式であり、tokenizer.json
ファイルを含む必要があります。 モデルがsafetensors
形式ではなく、tokenizer.json
ファイルを含まないが、その他の互換性がある場合、変換ユーティリティはモデル準備プロセスの一部として必要な変更を行います。時系列モデル: モデルディレクトリには
tsfm_config.json
ファイルが必要です。 Hugging Face (model_type:tinytimemixer
) でホストされている時系列モデルは、このファイルを含まないことができる。 モデルがダウンロードされ、展開されるときにファイルがなければ、予測は失敗する。 予測の問題を回避するためには、モデルをダウンロードする際に追加のステップを実行する必要があります。重要:- 汎用モデル:カスタム基盤モデルサポートされている
transformers
ライブラリで保存されていることを確認する必要があります。 カスタム 基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、 デプロイメント失敗する可能性があります。 詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。 - カスタム・ 基盤モデルデプロイするプロジェクトまたはスペースに、関連する watsonx.ai Runtime インスタンスがあることを確認してください。 プロジェクトまたはスペースの「管理」タブを開いて確認してください。
- 汎用モデル:カスタム基盤モデルサポートされている
対応モデル・アーキテクチャ
以下の表は、 watsonx.ai で推論するためのカスタム・モデルとして配置できるモデル・アーキテクチャの一覧です。 モデルのアーキテクチャは、サポートされている量子化方法、並列テンソル、配置構成サイズ、ソフトウェア仕様に関する情報とともにリストアップされている。
様々な仕様のソフトウェアをデプロイメントおります:
watsonx-cfm-caikit-1.0
ソフトウェア仕様はTGIランタイムエンジンをベースにしている。watsonx-cfm-caikit-1.1
ソフトウェア仕様は、 vLLM ランタイムエンジンをベースにしている。 性能面ではこちらの方が優れているが、すべてのモデル・アーキテクチャで利用できるわけではない。watsonx-tsfm-runtime-1.0
ソフトウェア仕様は時系列モデル用に設計されている。 これは、watsonx-tsfm-runtime-1.0
推論ランタイムをベースにしている。
汎用モデル:
モデル・アーキテクチャ・タイプ | 基盤モデルの例 | 量子化法 | 並列テンソルmultiGpu | 導入の構成 | ソフトウェア仕様 |
---|---|---|---|---|---|
bloom |
bigscience/bloom-3b , bigscience/bloom-560m |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
codegen |
Salesforce/codegen-350M-mono , Salesforce/codegen-16B-mono |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.0 |
exaone |
lgai-exaone/exaone-3.0-7.8B-Instruct |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.1 |
falcon |
tiiuae/falcon-7b |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gemma |
google/gemma-2b |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
gemma2 |
google/gemma-2-9b |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
gpt_bigcode |
bigcode/starcoder , bigcode/gpt_bigcode-santacoder |
gptq |
はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt-neox |
rinna/japanese-gpt-neox-small , EleutherAI/pythia-12b , databricks/dolly-v2-12b |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gptj |
EleutherAI/gpt-j-6b |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt2 |
openai-community/gpt2-large |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
granite |
ibm-granite/granite-3.0-8b-instruct , ibm-granite/granite-3b-code-instruct-2k , granite-8b-code-instruct , granite-7b-lab |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.1 |
jais |
core42/jais-13b |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
llama |
DeepSeek-R1 (distilled variant) , meta-llama/Meta-Llama-3-8B , meta-llama/Meta-Llama-3.1-8B-Instruct , llama-2-13b-chat-hf , TheBloke/Llama-2-7B-Chat-AWQ , ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf |
gptq |
はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mistral |
mistralai/Mistral-7B-v0.3 , neuralmagic/OpenHermes-2.5-Mistral-7B-marlin |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mixtral |
TheBloke/Mixtral-8x7B-v0.1-GPTQ , mistralai/Mixtral-8x7B-Instruct-v0.1 |
gptq |
いいえ | 小 | watsonx-cfm-caikit-1.1 |
mpt |
mosaicml/mpt-7b , mosaicml/mpt-7b-storywriter , mosaicml/mpt-30b |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mt5 |
google/mt5-small , google/mt5-xl |
該当なし | いいえ | 小 | watsonx-cfm-caikit-1.0 |
nemotron |
nvidia/Minitron-8B-Base |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
olmo |
allenai/OLMo-1B-hf , allenai/OLMo-7B-hf |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
persimmon |
adept/persimmon-8b-base , adept/persimmon-8b-chat |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
phi |
microsoft/phi-2 , microsoft/phi-1_5 |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
phi3 |
microsoft/Phi-3-mini-4k-instruct |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
qwen |
DeepSeek-R1 (distilled variant) |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
qwen2 |
Qwen/Qwen2-7B-Instruct-AWQ |
AWQ |
はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.1 |
t5 |
google/flan-t5-large , google/flan-t5-small |
該当なし | はい | スモール、ミディアム、ラージ | watsonx-cfm-caikit-1.0 |
時系列モデル:
モデル・アーキテクチャ・タイプ | 基盤モデルの例 | 量子化法 | 並列テンソルmultiGpu | 導入の構成 | ソフトウェア仕様 |
---|---|---|---|---|---|
tinytimemixer |
ibm-granite/granite-timeseries-ttm-r2 |
該当なし | 該当なし | スモール、ミディアム、ラージ、エクストララージ | watsonx-tsfm-runtime-1.0 |
- IBM は、表 1 および表 2 に示すモデル・アーキテクチャのみを認証する。 vLLM 推論フレームワークでサポートされている他のアーキテクチャのモデルを使用することはできますが、 IBM、サポートされていないアーキテクチャや互換性のない機能を持つ基盤モデルデプロイしたことによるデプロイメント失敗はサポートされません。
llama 3.1
モデルのデプロイが失敗する可能性があります。 この問題に対処するには、トラブルシューティングに記載されている手順を参照してください。watsonx-cfm-caikit-1.1
ソフトウェア仕様では、codegen
、mt5
、t5
タイプのモデルを展開することはできません。- モデルが並列テンソルをサポートしていない場合、使用できる設定は
Small
だけです。Small
がサポートする設定よりも多くのパラメータを使ってモデルをトレーニングした場合は、失敗します。 これは、カスタムモデルのいくつかをデプロイできないことを意味する。 制限の詳細については、リソース利用ガイドラインをご覧ください。
カスタム基盤モデル前提条件の詳細を収集する
基盤モデル内にファイル
config.json
が存在するか確認する。 デプロイメント、クラウドストレージにアップロードされた後、 基盤モデルコンテンツフォルダ内にファイルconfig.json
が存在するかどうかを確認します。config.json
ファイルを開き、 基盤モデル サポートされているアーキテクチャを使用していることを確認する。tokenizer.json
、モデルの内容が.safetensors
形式であることを確認するために、 基盤モデルモデルのファイル一覧を表示します。重要:カスタム・ 基盤モデル、サポートされている
transformers
ライブラリと共に保存されていることを確認する必要があります。 カスタム 基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、 デプロイメント失敗する可能性があります。 詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。
例を見てみよう:
Hugging Face に保存されている falcon-40b モデルについては、 ファイルとバージョン をクリックしてファイル構造を表示し、 config.json
を確認します
サンプルモデルは、サポートされているfalcon
アーキテクチャのバージョンを使用しています。
このサンプルモデルはtokenizer.json
ファイルを含み、.safetensors
フォーマットになっています:
モデルがこれらの要件を満たしていない場合、モデル資産を作成してモデルをデプロイすることはできません。
資源利用ガイドライン
時系列モデル
時系列モデルの推論ランタイムは、これらのハードウェア仕様 Small
, Medium
, Large
をサポートしています、 Extra large
最大同時ユーザー数とペイロード特性に基づいて、カスタム時系列モデルにハードウェア仕様を割り当てます:
単変量時系列 | 多変量時系列(系列×ターゲット) | 小 | 中間 | 大 | 特大 |
---|---|---|---|---|---|
1000 | 23x100 | 6 | 12 | 25 GB | 50 |
500 | 15x80 | 10 | 21 | 42 | 85 |
250 | 15x40 | ※13 | 26 | 53 | 106 |
125 | 15x20 | ※13 | 27 | 54 | 109 |
60 | 15x10 | 14 | 28 | 56 | 112 |
30時間まで | 15x5 | 14 | 28 | 56 | 113 |
汎用モデル
汎用モデルでは、カスタム基盤モデルサポートするために3つの構成が用意されている: Small
Medium
および Large
。 カスタム・ 基盤モデル モデルに最適な構成を決定するには、以下のガイドラインを参照してください:
- 26B パラメータの下で、
Small
コンフィギュレーションを任意のダブルバイト精度モデルに割り当て、テストと検証を行う。 - 27B と 53B のパラメータの間の任意のダブルバイト精度モデルに
Medium
コンフィギュレーションを割り当て、テストと検証を行う。 - 54B から 106B パラメータ間の任意のダブルバイト精度モデルに
Large
コンフィギュレーションを割り当て、テストと検証を行う。
選択したコンフィギュレーションがテストと検証の段階で失敗した場合、次に利用可能な上位コンフィギュレーションを検討する。 例えば、Small
の設定が失敗したら、Medium
の設定を試してください。 現在のところ、Large
のコンフィギュレーションが最も高いコンフィギュレーションです。
構成 | 適切なモデルの例 |
---|---|
小 | llama-3-8b llama-2-13b starcoder-15.5b mt0-xxl-13b jais-13b gpt-neox-20b flan-t5-xxl-11b flan-ul2-20b allam-1-13b |
中間 | codellama-34b |
大 | llama-3-70b llama-2-70b |
カスタム・ 基盤モデル制限と制約
watsonx.aiでカスタム基礎モデルをデプロイして使用する方法について、これらの制限に注意してください。
カスタム・ファウンデーション・モデルの展開における制限事項
- カスタム・ 基盤モデル デプロイメント需要が高く、それに対応するためのリソースが限られているため、 watsonx.ai、1つの IBM Cloud アカウントにつき4つの小型モデル、2つの中型モデル、または1つの大型モデルのいずれかをデプロイメント上限としています。 これらの制限を超えてカスタム・ 基盤モデルインポートしようとすると、その旨が通知され、アンケートを通じてご意見をお聞かせいただくことになります。 これは、お客様のニーズを理解し、将来の容量アップグレードを計画するのに役立ちます。
- 時系列モデルはパラメータを取らない。 カスタム時系列モデルをデプロイするときは、パラメータを指定しないでください。 カスタム時系列モデルのデプロイ時にパラメータを指定した場合、そのパラメータは何の効果も持たない。
カスタム・ 基盤モデル デプロイメント使用する際の制限事項
を使用してデプロイされた後のカスタム・ 基盤モデル使用に関する制限事項の一覧です。 watsonx.ai:
- カスタム・ 基盤モデルチューニングすることはできない。
- watsonx.governance を使用して、カスタム基盤モデルモデルのプロンプトテンプレートを評価または追跡することはできません。
この体験の改善にご協力ください
ご意見をお聞きになりたい方は、このリンクをクリックしてください。 皆様からのフィードバックは、今後のキャパシティアップグレードの計画や、 基盤モデル デプロイメント全体の向上に欠かせません。 ご協力ありがとう!
次のステップ
親トピック カスタム基盤モデル展開