watsonx.aiランタイムのトラブルシューティング

最終更新: 2025年2月21日

以下のヒントに従って、watsonx.aiランタイムを使用する際に遭遇する可能性のある一般的な問題を解決してください。

AutoAIのトラブルシューティング

RAG実験のAutoAI推論ノートブックがモデルの限界を超える
AutoAI実験のトレーニングがサービス ID 認証情報で失敗する
AutoAI時系列モデルの予測要求が、新しい観測値が多すぎるとタイムアウトすることがある。
AutoAI実験の学習データにクラスメンバーが足りない
watsonx.aiを必要とするCloud Pak for Dataのアセットを開くことができません。

デプロイのトラブルシューティング

大容量のデータを入力とするバッチデプロイメントに失敗する可能性がある。
ファイルアップロードのセキュリティ
アップグレード後、ソフトウェア仕様が制限されたデプロイメントが失敗する
デプロイメントスペース内の「SPSS Modelerフローに対するジョブの作成に失敗する
LightGBM からONNXへのモデル変換に失敗する
タスクの認証情報が削除されたため、デプロイメントジョブの実行に失敗する

AutoAIのトラブルシューティング

AutoAIを使用する際に遭遇する可能性のある一般的な問題を解決するためのヒントをご覧ください。

異常予測を伴うAutoAIの時系列実験の実行は失敗する

時系列実験結果の異常値を予測する機能はサポートされなくなりました。既存の実験を実行しようとすると、ランタイムライブラリが見つからないというエラーが発生します。例えば、こんなエラーが表示されるかもしれない：

The selected environment seems to be invalid: Could not retrieve environment. CAMS error: Missing or invalid asset id

異常予測のランタイムはサポートされていないため、この動作は予想される。この問題の回避策はない。

RAG実験のAutoAI推論ノートブックがモデル限界を超える

AutoAIRAG実験用に生成された推論ノートブックを実行すると、このようなエラーが発生することがあります：

MissingValue: No "model_limits" provided. Reason: Model <model-nam> limits cannot be found in the model details.

このエラーは、実験に使用された基礎モデルを推論するためのトークンリミットが欠落していることを示している。問題を解決するには、関数'default_inference_functionを見つけ、'get_max_input_tokensをモデルの最大トークンで置き換える。次に例を示します。

model = ModelInference(api_client=client, **params['model"])
# model_max_input_tokens = get+max_input_tokens(model=model, params=params)
model_max_input_tokens = 4096

そのモデルのトークンの最大値は、watsonx.ai で利用可能なサポートされている基礎モデルの表で見つけることができます。

AutoAI実験のトレーニングがサービス ID 認証情報で失敗する

serviceID,の API キーを使用してAutoAI実験をトレーニングする場合、このエラーでトレーニングに失敗することがあります：

User specified in query parameters does not match user from token.

この問題を解決する一つの方法は、ユーザー認証情報を使って実験を実行することである。サービスの認証情報を使って実験を実行したい場合は、以下の手順に従ってサービス ID のロールとポリシーを更新してください。

serviceID を IBM Cloud で開きます。
新しいserviceIDを作成するか、既存のIDを以下のアクセスポリシーで更新する：
- APIキーのレビュアー、ユーザーAPIキーの作成者、ビュアー、オペレーター、エディターの役割を持つすべてのIAMアカウント管理サービス。理想的には、この ServiceId 用に新しいAPIキーを作成してもらうのが一番です。
更新後のポリシーは以下のようになります。
更新されたserviceIDの認証情報を使用してトレーニングを再度実行します。

AutoAI時系列モデルの予測要求が、新しい観測値が多すぎるとタイムアウトすることがある

新しいオブザベーションの数が多すぎると、デプロイされたAutoAI時系列モデルの予測要求がタイムアウトすることがあります。この問題を解決するには、次のいずれかを実行します。

新しい観測の数を減らす。
新しいオブザベーションを追加して、実験に使用するトレーニング・データを拡張する。次に、更新された学習データを使ってAutoAIの時系列実験を再実行する。

AutoAI エクスペリメントのトレーニング・データ内のクラス・メンバーが不足しています

AutoAI エクスペリメントのトレーニング・データには、クラスごとに少なくとも 4 つのメンバーが必要です。トレーニング・データのクラス内のメンバー数が不足している場合は、以下のエラーが発生します。

ERROR: ingesting data Message id: AC10011E. Message: Each class must have at least 4 members. The following classes have too few members: ['T'].

この問題を解決するには、トレーニング・データを更新してクラスを削除するか、さらにメンバーを追加します。

watsonx.aiを必要とするCloud Pak for Dataのアセットを開くことができません

Cloud Pak for Dataコンテキストで作業している場合、watsonx.ai などの別の製品コンテキストを必要とするアセットを開くことはできません。例えば、watsonx.aiを使用して RAG パターンのAutoAI実験を作成した場合、Cloud Pak for Dataコンテキストではそのアセットを開くことはできません。 AutoAI実験の場合、アセットリストからトレーニングタイプを見ることができる。タイプ機械学習で実験を開始することはできるが、タイプ検索機能付き生成で実験を開始することはできない。

デプロイのトラブルシューティング

以下のヒントに従って、watsonx.aiRuntime のデプロイメントで遭遇する可能性のある一般的な問題を解決してください。

大量のデータ・ボリュームを入力として使用するバッチ・デプロイメントが失敗することがある

大量のデータを入力ソースとして使用するバッチ・ジョブをスコアリングする場合、内部タイムアウト設定のためにジョブが失敗する可能性があります。この問題の症状として、以下の例のようなエラー・メッセージが考えられます。

Incorrect input data: Flight returned internal error, with message: CDICO9999E: Internal error occurred: Snowflake sQL logged error: JDBC driver internal error: Timeout waiting for the download of #chunk49(Total chunks: 186) retry=0.

バッチ・デプロイメントのスコアリング時にタイムアウトが発生した場合は、長時間実行されるジョブを処理するようにデータ・ソース照会レベルのタイムアウト制限を構成する必要があります。

データ・ソースの照会レベルのタイムアウト情報は、以下のとおりです。

データ・ソースの照会レベルの時間制限に関する情報
データ・ソース	照会レベルの時間制限	デフォルトの制限時間	デフォルトの制限時間の変更
Apache Cassandra	はい	10 秒間	Apache Cassandra構成ファイルまたはApache Cassandra接続URLで「`read_timeout_in_ms`」および「`write_timeout_in_ms`パラメータを設定して、デフォルトの制限時間を変更します。
Cloud Object Storage	いいえ	N/A	N/A
Db2	はい	N/A	`QueryTimeout` パラメーターを設定して、クライアントが照会の実行の完了を待機する時間 (秒単位) を指定します。この時間を過ぎると、クライアントは実行を取り消してアプリケーションに制御を戻そうとします。
Hive via Execution Engine for Hadoop	はい	60 分 (3600 秒)	デフォルトの制限時間を変更するには、接続URLに「`hive.session.query.timeout`プロパティを設定する。
Microsoft SQL Server	はい	30 秒間	`QUERY_TIMEOUT` サーバー構成オプションを設定して、デフォルトの時間制限を変更します。
MongoDB	はい	30 秒間	デフォルトの時間制限を変更するには、照会オプションで `maxTimeMS` パラメーターを設定します。
MySQL	はい	0 秒 (デフォルトの制限時間なし)	接続URLまたはJDBCドライバのプロパティで「`timeout`プロパティを設定し、クエリの時間制限を指定する。
Oracle	はい	30 秒間	Oracle JDBC ドライバーで `QUERY_TIMEOUT` パラメーターを設定して、照会が自動的にキャンセルされるまでに実行できる最大時間を指定します。
PostgreSQL	いいえ	N/A	`queryTimeout` プロパティーを設定して、照会を実行できる最大時間を指定します。 `queryTimeout` プロパティーのデフォルト値は `0`です。
Snowflake	はい	6 時間	`queryTimeout` パラメーターを設定して、デフォルトの時間制限を変更します。

バッチ・デプロイメントが失敗しないようにするには、データ・セットを区分するか、そのサイズを小さくします。

ファイル・アップロードのセキュリティー

watsonx.aiStudio またはwatsonx.aiRuntime UI 経由でアップロードしたファイルは、悪意のある可能性のあるコンテンツについて検証またはスキャンされません。コンテンツのセキュリティーを確保するために、アップロードの前にすべてのファイルに対してアンチウィルス・アプリケーションなどのセキュリティー・ソフトウェアを実行することをお勧めします。

制限されたソフトウェア仕様での展開はアップグレード後に失敗する

IBM Cloud Pak for DataData の最新バージョンにアップグレードし、FIPS モードで制約付きソフトウェア仕様を使用して作成された R Shiny アプリケーション資産をデプロイすると、デプロイに失敗します。

たとえば、IBM Cloud Pak for Dataバージョン4.7.0から4.8.4以降にアップグレードすると、'shiny-r3.6および 'shiny-r4.2ソフトウェア仕様を使用するデプロイメントが失敗します。エラーメッセージが表示される場合がありますError 502 - Bad Gateway。

デプロイメントが失敗しないようにするには、デプロイされた資産の制限された仕様を更新して、最新のソフトウェア仕様を使用します。詳細については、「古いソフトウェア仕様またはフレームワークの管理」を参照してください。不要になった場合は、アプリケーションのデプロイメントを削除することもできます。

配置スペースでのSPSS Modelerフローのジョブ作成に失敗する

配置スペースでSPSS Modelerフローのバッチジョブを構成する過程で、データ資産とそれぞれの接続の自動マッピングに失敗することがあります。

画像は、データ資産と接続の自動マッピングが失敗していることを示しています

データ資産と接続の自動マッピングのエラーを修正するには、以下の手順に従ってください：

作成をクリックして進行状況を保存し、'新しい仕事設定ダイアログボックスから抜けます。
展開スペースで、ジョブタブをクリックし、SPSS Modelerフロージョブを選択して、ジョブの詳細を確認します。
In the job details page, click the 編集 icon to manually update the mapping of your data assets and connections.
データ資産と接続のマッピングを更新した後、[新規ジョブ]ダイアログボックスでジョブの設定プロセスを再開できます。詳細については、 SPSS Modelerフローの展開ジョブの作成を参照してください

LightGBM からONNXへのモデル変換に失敗する

サポートされていない目的関数を使用して LightGBM モデルをONNX形式に変換すると、デプロイメントが失敗する可能性があります。例えば、 lightgbm.Booster 定義でサポートされていない目的関数を使用すると、変換に問題が生じる可能性があります。

この問題を解決するには、 LightGBM モデルをONNXに変換する際に、サポートされている目的関数を使用してください。

次のコードサンプルでは、 lightgbm.Booster 定義におけるサポートされていない目的関数を、 convert_lightgbm と互換性のある関数に置き換える方法を示しています。

lgb_model = lightgbm.Booster(model_str=lgb_model.model_to_string().replace('<unsupported_objective_function>', '<compatible_objective_function>'))

タスクの認証情報が削除されたため、デプロイメントジョブの実行に失敗する

セキュリティ強化のため、タスクの認証情報は、デプロイメントの作成とジョブの実行に必要です。タスク資格情報を削除した後にデプロイメントジョブを実行すると、プラットフォームジョブサービスでジョブステータスを更新するために必要な API トークンが利用できないため、デプロイメントまたはジョブのステータスは中間ステータスのままになります。

As a result, the runtime pod will not be able to generate a user token, causing the job to remain in the running state indefinitely.

この問題を解決するには、以前に削除したタスクの認証情報を再作成し、中間ステータスのまま残っている既存のデプロイメントまたはジョブを削除する必要があります。

トピックは役に立ちましたか?