カスタム・ 基盤モデル導入計画

最終更新: 2025年4月02日
カスタム・ 基盤モデル導入計画

watsonx.ai を使用して推論用のカスタム基盤モデル展開するための考慮事項と要件を確認する。

カスタム・ 基盤モデル配備を準備する際には、以下の計画上の注意点を確認してください:

カスタム・ファンデーション・モデルの要件と使用上の注意

配備可能なカスタムモデルは、これらの要件を満たさなければならない:

  • 独自のカスタムモデルをアップロードして使用できるのは、watsonx.ai のスタンダードプランのみです。

  • モデルは、Text Generation Inference(TGI)標準と互換性があり、サポートされているモデル・アーキテクチャ・タイプで構築されていなければならない。

  • モデルのファイルリストには、config.jsonファイルが含まれていなければなりません。

  • モデルは、サポートされているトランスフォーマーライブラリを使ったsafetensors形式で、tokenizer.jsonファイルを含んでいなければなりません。

    重要:
    • カスタム・ 基盤モデル、サポートされている transformers ライブラリと共に保存されていることを確認する必要があります。 カスタム 基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、 デプロイメント失敗する可能性があります。 詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。
    • カスタム・ 基盤モデルデプロイするプロジェクトまたはスペースに、関連する watsonx.ai Runtime インスタンスがあることを確認してください。 プロジェクトまたはスペースの「管理」タブを開いて確認してください。

対応モデル・アーキテクチャ

次の表は、watsonx.ai で推論を行うためのカスタムモデルとして配置できるモデルアーキテクチャの一覧です。 モデルのアーキテクチャは、サポートされている量子化方法、並列テンソル、配置構成サイズ、ソフトウェア仕様に関する情報とともにリストアップされている。

注:

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

表 1. サポートされるモデル・アーキテクチャ、量子化手法、並列テンソル、展開構成サイズ、ソフトウェア仕様
モデル・アーキテクチャ・タイプ 基盤モデルの例 量子化法 並列テンソルmultiGpu 導入の構成 ソフトウェア仕様
bloom bigscience/bloom-3b, bigscience/bloom-560m 適用されない はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono 適用されない いいえ watsonx-cfm-caikit-1.0
exaone lgai-exaone/exaone-3.0-7.8B-Instruct 適用されない いいえ watsonx-cfm-caikit-1.1
falcon 適用されない はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gemma google/gemma-2b 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
gemma2 google/gemma-2-9b 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
gpt_bigcode bigcode/starcoder, bigcode/gpt_bigcode-santacoder gptq はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b 適用されない はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj EleutherAI/gpt-j-6b 適用されない いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
granite ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab 適用されない いいえ watsonx-cfm-caikit-1.1
llama DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf gptq はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin 適用されない いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 gptq いいえ watsonx-cfm-caikit-1.1
mpt mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b 適用されない いいえ watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mt5 google/mt5-small, google/mt5-xl 適用されない いいえ watsonx-cfm-caikit-1.0
nemotron nvidia/Minitron-8B-Base 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
olmo allenai/OLMo-1B-hf, allenai/OLMo-7B-hf 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
persimmon adept/persimmon-8b-base, adept/persimmon-8b-chat 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
phi microsoft/phi-2, microsoft/phi-1_5 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
phi3 microsoft/Phi-3-mini-4k-instruct 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
qwen DeepSeek-R1 (distilled variant) 適用されない はい 小・中・大 watsonx-cfm-caikit-1.1
qwen2 Qwen/Qwen2-7B-Instruct-AWQ AWQ はい 小・中・大 watsonx-cfm-caikit-1.1
t5 google/flan-t5-large, google/flan-t5-small 適用されない はい スモール、ミディアム、ラージ watsonx-cfm-caikit-1.0
重要:
  • IBM は、表1に示すモデル・アーキテクチャのみを認証する。 vLLM, でサポートされている別のアーキテクチャのモデルを使用することはできますが、 IBM は、サポートされていないアーキテクチャや互換性のない機能を持つ基盤モデルデプロイしたことによるデプロイメント失敗をサポートしません。
  • llama 3.1モデルのデプロイが失敗する可能性があります。 この問題に対処するには、トラブルシューティングに記載されている手順を参照してください。
  • It is not possible to deploy codegen, mt5, and t5 type models with the watsonx-cfm-caikit-1.1 software specification.
  • モデルが並列テンソルをサポートしていない場合、使用できる設定は Small だけです。 Smallがサポートする設定よりも多くのパラメータを使ってモデルをトレーニングした場合は、失敗します。 これは、カスタムモデルのいくつかをデプロイできないことを意味する。 制限の詳細については、リソース利用ガイドラインをご覧ください。

カスタム基盤モデル前提条件の詳細を収集する

  1. 基盤モデル内にファイル config.json が存在するか確認する。 デプロイメント、クラウドストレージにアップロードされた後、 基盤モデルコンテンツフォルダ内にファイル config.json が存在するかどうかを確認します。

  2. config.json ファイルを開き、 基盤モデル サポートされているアーキテクチャを使用していることを確認する。

  3. tokenizer.json 、モデルの内容が .safetensors 形式であることを確認するために、 基盤モデルモデルのファイル一覧を表示します。

    重要:

    カスタム・ 基盤モデル、サポートされている transformers ライブラリと共に保存されていることを確認する必要があります。 カスタム 基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、 デプロイメント失敗する可能性があります。 詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。

例を見てみよう:

Hugging Face に保存されている falcon-40b モデルについては、 ファイルとバージョン をクリックしてファイル構造を表示し、 config.json を確認します

でホストされている 基盤モデル内の config.json ファイルをチェックします。 Hugging Face

サンプルモデルは、サポートされているfalconアーキテクチャのバージョンを使用しています。

基盤モデルサポートされているアーキテクチャのチェック

このサンプルモデルはtokenizer.jsonファイルを含み、.safetensorsフォーマットになっています:

基盤モデルファイル一覧

モデルがこれらの要件を満たしていない場合、モデル資産を作成してモデルをデプロイすることはできません。

資源利用ガイドライン

カスタム・ 基盤モデルサポートするために、3つの構成が用意されている: Small Medium および Large。 カスタム・ 基盤モデル モデルに最適な構成を決定するには、以下のガイドラインを参照してください:

  • 26B パラメータの下で、Small コンフィギュレーションを任意のダブルバイト精度モデルに割り当て、テストと検証を行う。
  • 27B と 53B のパラメータの間の任意のダブルバイト精度モデルに Medium コンフィギュレーションを割り当て、テストと検証を行う。
  • 54B から 106B パラメータ間の任意のダブルバイト精度モデルに Large コンフィギュレーションを割り当て、テストと検証を行う。
ヒント:

選択したコンフィギュレーションがテストと検証の段階で失敗した場合、次に利用可能な上位コンフィギュレーションを検討する。 例えば、Smallの設定が失敗したら、Mediumの設定を試してください。 現在のところ、Largeのコンフィギュレーションが最も高いコンフィギュレーションです。

表 2. ハードウェア構成とモデル例
構成 適切なモデルの例
llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
中間 codellama-34b
llama-3-70b
llama-2-70b

カスタム・ファンデーション・モデルの制限と制約

watsonx.aiでカスタム基礎モデルをデプロイして使用する方法について、これらの制限に注意してください。

カスタム・ファウンデーション・モデルの展開における制限事項

カスタム・ 基盤モデル デプロイメント需要が高く、それに対応するためのリソースが限られているため、 watsonx.ai、1つの IBM Cloud アカウントにつき4つの小型モデル、2つの中型モデル、または1つの大型モデルのいずれかをデプロイメント上限としています。 これらの制限を超えてカスタム・ 基盤モデルインポートしようとすると、その旨が通知され、アンケートを通じてご意見をお聞かせいただくことになります。 これは、お客様のニーズを理解し、将来の容量アップグレードを計画するのに役立ちます。

重要:要求された限度額の引き上げは保証されておらず、利用可能な容量に従うものとします。

カスタム・ 基盤モデル デプロイメント使用する際の制限事項

watsonx.ai:でデプロイされた後、カスタム基盤モデルを使用するための以下の制限に注意してください

  • カスタム・ 基盤モデルチューニングすることはできない。
  • watsonx.governance を使用して、カスタム基盤モデルモデルのプロンプトテンプレートを評価または追跡することはできません。
  • 基盤モデルプロンプトを表示することはできますが、カスタムモデルのプロンプトテンプレートを保存することはできません。

この体験の改善にご協力ください

ご意見をお聞きになりたい方は、このリンクをクリックしてください。 皆様からのフィードバックは、今後のキャパシティアップグレードの計画や、 基盤モデル デプロイメント全体の向上に欠かせません。 ご協力ありがとう!

次のステップ

カスタム基盤モデルダウンロードとストレージの設定

親トピック カスタム基盤モデル展開