カスタム・基盤モデル導入計画

最終更新: 2025年4月02日

カスタム・基盤モデル導入計画

watsonx.ai を使用して推論用のカスタム基盤モデル展開するための考慮事項と要件を確認する。

カスタム・基盤モデル配備を準備する際には、以下の計画上の注意点を確認してください：

カスタム基盤モデルの要件と使用上の注意点を確認する
Supported architectures for custom foundation models を確認して、あなたのモデルが互換性があることを確認してください。
カスタム基盤モデル展開するための前提条件として必要な詳細を収集する。
カスタム・基盤モデルハードウェア仕様を選択する.
配備の制限を確認する
カスタム基盤モデルをデプロイできるように、タスク認証情報を有効にします。

カスタム・ファンデーション・モデルの要件と使用上の注意

配備可能なカスタムモデルは、これらの要件を満たさなければならない：

独自のカスタムモデルをアップロードして使用できるのは、watsonx.ai のスタンダードプランのみです。
モデルは、Text Generation Inference（TGI）標準と互換性があり、サポートされているモデル・アーキテクチャ・タイプで構築されていなければならない。
モデルのファイルリストには、config.jsonファイルが含まれていなければなりません。
モデルは、サポートされているトランスフォーマーライブラリを使ったsafetensors形式で、tokenizer.jsonファイルを含んでいなければなりません。
重要:
- カスタム・基盤モデル、サポートされている transformers ライブラリと共に保存されていることを確認する必要があります。カスタム基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、デプロイメント失敗する可能性があります。詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。
- カスタム・基盤モデルデプロイするプロジェクトまたはスペースに、関連する watsonx.ai Runtime インスタンスがあることを確認してください。プロジェクトまたはスペースの「管理」タブを開いて確認してください。

対応モデル・アーキテクチャ

次の表は、watsonx.ai で推論を行うためのカスタムモデルとして配置できるモデルアーキテクチャの一覧です。モデルのアーキテクチャは、サポートされている量子化方法、並列テンソル、配置構成サイズ、ソフトウェア仕様に関する情報とともにリストアップされている。

注:

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

表 1. サポートされるモデル・アーキテクチャ、量子化手法、並列テンソル、展開構成サイズ、ソフトウェア仕様
モデル・アーキテクチャ・タイプ	基盤モデルの例	量子化法	並列テンソルmultiGpu	導入の構成	ソフトウェア仕様
`bloom`	`bigscience/bloom-3b`, `bigscience/bloom-560m`	適用されない	はい	スモール、ミディアム、ラージ	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`codegen`	`Salesforce/codegen-350M-mono`, `Salesforce/codegen-16B-mono`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.0`
`exaone`	`lgai-exaone/exaone-3.0-7.8B-Instruct`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.1`
`falcon`		適用されない	はい	スモール、ミディアム、ラージ	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gemma`	`google/gemma-2b`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`gemma2`	`google/gemma-2-9b`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`gpt_bigcode`	`bigcode/starcoder`, `bigcode/gpt_bigcode-santacoder`	`gptq`	はい	スモール、ミディアム、ラージ	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gpt-neox`	`rinna/japanese-gpt-neox-small`, `EleutherAI/pythia-12b`, `databricks/dolly-v2-12b`	適用されない	はい	スモール、ミディアム、ラージ	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gptj`	`EleutherAI/gpt-j-6b`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`granite`	`ibm-granite/granite-3.0-8b-instruct`, `ibm-granite/granite-3b-code-instruct-2k`, `granite-8b-code-instruct`, `granite-7b-lab`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.1`
`llama`	`DeepSeek-R1 (distilled variant)`, `meta-llama/Meta-Llama-3-8B`, `meta-llama/Meta-Llama-3.1-8B-Instruct`, `llama-2-13b-chat-hf`, `TheBloke/Llama-2-7B-Chat-AWQ`, `ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf`	`gptq`	はい	スモール、ミディアム、ラージ	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mistral`	`mistralai/Mistral-7B-v0.3`, `neuralmagic/OpenHermes-2.5-Mistral-7B-marlin`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mixtral`	`TheBloke/Mixtral-8x7B-v0.1-GPTQ`, `mistralai/Mixtral-8x7B-Instruct-v0.1`	`gptq`	いいえ	小	`watsonx-cfm-caikit-1.1`
`mpt`	`mosaicml/mpt-7b`, `mosaicml/mpt-7b-storywriter`, `mosaicml/mpt-30b`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mt5`	`google/mt5-small`, `google/mt5-xl`	適用されない	いいえ	小	`watsonx-cfm-caikit-1.0`
`nemotron`	`nvidia/Minitron-8B-Base`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`olmo`	`allenai/OLMo-1B-hf`, `allenai/OLMo-7B-hf`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`persimmon`	`adept/persimmon-8b-base`, `adept/persimmon-8b-chat`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`phi`	`microsoft/phi-2`, `microsoft/phi-1_5`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`phi3`	`microsoft/Phi-3-mini-4k-instruct`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`qwen`	`DeepSeek-R1 (distilled variant)`	適用されない	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`qwen2`	`Qwen/Qwen2-7B-Instruct-AWQ`	`AWQ`	はい	小・中・大	`watsonx-cfm-caikit-1.1`
`t5`	`google/flan-t5-large`, `google/flan-t5-small`	適用されない	はい	スモール、ミディアム、ラージ	`watsonx-cfm-caikit-1.0`

重要:

IBM は、表1に示すモデル・アーキテクチャのみを認証する。 vLLM, でサポートされている別のアーキテクチャのモデルを使用することはできますが、 IBM は、サポートされていないアーキテクチャや互換性のない機能を持つ基盤モデルデプロイしたことによるデプロイメント失敗をサポートしません。
llama 3.1モデルのデプロイが失敗する可能性があります。この問題に対処するには、トラブルシューティングに記載されている手順を参照してください。
It is not possible to deploy codegen, mt5, and t5 type models with the watsonx-cfm-caikit-1.1 software specification.
モデルが並列テンソルをサポートしていない場合、使用できる設定は Small だけです。 Smallがサポートする設定よりも多くのパラメータを使ってモデルをトレーニングした場合は、失敗します。これは、カスタムモデルのいくつかをデプロイできないことを意味する。制限の詳細については、リソース利用ガイドラインをご覧ください。

カスタム基盤モデル前提条件の詳細を収集する

基盤モデル内にファイル config.json が存在するか確認する。デプロイメント、クラウドストレージにアップロードされた後、基盤モデルコンテンツフォルダ内にファイル config.json が存在するかどうかを確認します。
config.json ファイルを開き、基盤モデルサポートされているアーキテクチャを使用していることを確認する。
tokenizer.json 、モデルの内容が .safetensors 形式であることを確認するために、基盤モデルモデルのファイル一覧を表示します。

重要:
カスタム・基盤モデル、サポートされている transformers ライブラリと共に保存されていることを確認する必要があります。カスタム基盤モデル model.safetensors、メタデータヘッダにサポートされていないデータ形式が使用されている場合、デプロイメント失敗する可能性があります。詳しくは、 watsonx.ai ランタイムのトラブルシューティングをご覧ください。

例を見てみよう：

Hugging Face に保存されている falcon-40b モデルについては、 ファイルとバージョン をクリックしてファイル構造を表示し、 config.json を確認します

でホストされている基盤モデル内の config.json ファイルをチェックします。 Hugging Face

サンプルモデルは、サポートされているfalconアーキテクチャのバージョンを使用しています。

基盤モデルサポートされているアーキテクチャのチェック

このサンプルモデルはtokenizer.jsonファイルを含み、.safetensorsフォーマットになっています：

基盤モデルファイル一覧

モデルがこれらの要件を満たしていない場合、モデル資産を作成してモデルをデプロイすることはできません。

資源利用ガイドライン

カスタム・基盤モデルサポートするために、3つの構成が用意されている： Small Medium および Large。カスタム・基盤モデルモデルに最適な構成を決定するには、以下のガイドラインを参照してください：

26B パラメータの下で、Small コンフィギュレーションを任意のダブルバイト精度モデルに割り当て、テストと検証を行う。
27B と 53B のパラメータの間の任意のダブルバイト精度モデルに Medium コンフィギュレーションを割り当て、テストと検証を行う。
54B から 106B パラメータ間の任意のダブルバイト精度モデルに Large コンフィギュレーションを割り当て、テストと検証を行う。

ヒント：

選択したコンフィギュレーションがテストと検証の段階で失敗した場合、次に利用可能な上位コンフィギュレーションを検討する。例えば、Smallの設定が失敗したら、Mediumの設定を試してください。現在のところ、Largeのコンフィギュレーションが最も高いコンフィギュレーションです。

表 2. ハードウェア構成とモデル例
構成	適切なモデルの例
小	`llama-3-8b` `llama-2-13b` `starcoder-15.5b` `mt0-xxl-13b` `jais-13b` `gpt-neox-20b` `flan-t5-xxl-11b` `flan-ul2-20b` `allam-1-13b`
中間	`codellama-34b`
大	`llama-3-70b` `llama-2-70b`

カスタム・ファンデーション・モデルの制限と制約

watsonx.aiでカスタム基礎モデルをデプロイして使用する方法について、これらの制限に注意してください。

カスタム・ファウンデーション・モデルの展開における制限事項

カスタム・基盤モデルデプロイメント需要が高く、それに対応するためのリソースが限られているため、 watsonx.ai、1つの IBM Cloud アカウントにつき4つの小型モデル、2つの中型モデル、または1つの大型モデルのいずれかをデプロイメント上限としています。これらの制限を超えてカスタム・基盤モデルインポートしようとすると、その旨が通知され、アンケートを通じてご意見をお聞かせいただくことになります。これは、お客様のニーズを理解し、将来の容量アップグレードを計画するのに役立ちます。

重要:要求された限度額の引き上げは保証されておらず、利用可能な容量に従うものとします。

カスタム・基盤モデルデプロイメント使用する際の制限事項

watsonx.ai:でデプロイされた後、カスタム基盤モデルを使用するための以下の制限に注意してください

カスタム・基盤モデルチューニングすることはできない。
watsonx.governance を使用して、カスタム基盤モデルモデルのプロンプトテンプレートを評価または追跡することはできません。
基盤モデルプロンプトを表示することはできますが、カスタムモデルのプロンプトテンプレートを保存することはできません。

この体験の改善にご協力ください

ご意見をお聞きになりたい方は、このリンクをクリックしてください。皆様からのフィードバックは、今後のキャパシティアップグレードの計画や、基盤モデルデプロイメント全体の向上に欠かせません。ご協力ありがとう！

次のステップ

カスタム基盤モデルダウンロードとストレージの設定

親トピック カスタム基盤モデル展開

トピックは役に立ちましたか?

0/1000

カスタム・ファンデーション・モデルの要件と使用上の注意Copy link to section

対応モデル・アーキテクチャCopy link to section

カスタム基盤モデル前提条件の詳細を収集するCopy link to section

資源利用ガイドラインCopy link to section

カスタム・ファンデーション・モデルの制限と制約Copy link to section

カスタム・ファウンデーション・モデルの展開における制限事項Copy link to section

カスタム・ 基盤モデル デプロイメント使用する際の制限事項Copy link to section

この体験の改善にご協力くださいCopy link to section

次のステップCopy link to section