SPSS モデルのバッチ展開で入力の詳細を指定する場合は、以下の規則に従ってください。
データ・タイプサマリー表:
データ | 説明 |
---|---|
タイプ | データ参照、インライン |
ファイル・フォーマット | CSV |
データ・ソース
入力または出力データ参照:
- スペースからのローカル資産または管理対象資産
- 以下のソースからの接続 (リモート) 資産:
注:
- タイプ Cloud Object Storage または Cloud Object Storage (インフラストラクチャー)の接続の場合は、 アクセス・キー および 秘密鍵( HMAC 資格情報とも呼ばれる) を構成する必要があります。
- SPSS デプロイメントの場合、以下のデータ・ソースは連邦情報処理標準 (FIPS) に準拠していません。
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- ストレージ・ボリューム
- 入出力データ参照で指定された表名は無視されます。 SPSS モデルで参照されるテーブル名は、バッチ展開中に使用されます。
- SQL PushBack を使用して、 IBM SPSS Modeler 操作用の SQL ステートメントを生成します。この SQL ステートメントは、パフォーマンスを向上させるためにデータベースに「プッシュバック」したり、データベース内で実行したりすることができます。 SQL プッシュバックは、以下によってのみサポートされます。
- Db2
- SQL Server
- Netezza Performance Server
バッチ展開に接続データを使用する
SPSS Modeler フローは、データのインポートおよびエクスポートノードを多数持つことができます。 ノードがデータベース接続を使用する場合、データソースとターゲットにテーブル名を設定する必要があります。 これらのテーブル名は、後でバッチ・ジョブに使用される。 データのインポートには Data Asset ノードを使用し、データのエクスポートには Data Asset Export ノードを使用します。 ノードを設定するときは、Connectionsからテーブル名を選択します。プロジェクト内のデータ資産を選択しないでください。 モデルを保存してwatsonx.aiRuntime にデプロイする前に、ノード名とテーブル名を設定します。
モデルを配置スペースに配置する場合、ノードが配置スペースでサポートされている データベースに接続されていることを確認します。 モデルのバッチ展開では、接続の詳細は入力および出力データ参照から選択されますが、入力および出力テーブル名は SPSS Modeler モデルから選択されます。 接続データ・リファレンスにある入出力テーブル名は無視される。
Cloud Object Storage 接続を使用する SPSS モデルのバッチ デプロイメントでは、SPSS モデルの入力および出力データ アセット ノードが 1 つであることを確認してください。
入力ソースと出力ソースのサポートされる組み合わせ
バッチジョブの入力と出力には、互換性のあるデータソースとターゲットを指定する必要があります。 互換性のないデータソースとターゲットを指定した場合、バッチジョブを実行しようとするとエラーが発生します。
バッチ・ジョブでは、以下の組み合わせがサポートされています。
SPSSモデルの入出力 | バッチ・デプロイメント・ジョブ入力 | バッチ・デプロイメント・ジョブの出力 |
---|---|---|
ファイル | ローカル、管理対象、または参照先のデータ資産または接続資産 (ファイル) | リモート・データ資産または接続資産 (ファイル) または名前 |
データベース | リモート・データ資産または接続資産 (データベース) | リモート・データ資産または接続資産 (データベース) |
複数の入力の指定
スキーマのない SPSS モデル展開で複数の入力を指定する場合は、input_data_references
で各要素の ID を指定します。
詳しくは、 SPSS ジョブでの複数のデータ・ソースの使用を参照してください。
この例では、ジョブを作成するときに、ID が sample_db2_conn
、 sample_teradata_conn
、および sample_googlequery_conn
の 3 つの入力項目を指定し、各入力に必要な接続データを選択します。
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
プログラムでデータ参照を指定する
入出力データ参照をプログラムで指定する場合:
- データ・ソース参照
type
は、資産タイプに依存します。 デプロイメント・スペースへのデータ資産の追加の データ・ソース参照タイプ セクションを参照してください。 - SPSS ジョブは、複数のデータ・ソース入力と単一の出力をサポートしています。 モデルを保存したときのメタデータにスキーマがない場合は、
id
を手動で入力し、各接続用のデータ アセットを選択する必要があります。 スキーマがモデルのメタデータで提供されている場合、id
の名前はメタデータを使って自動的に入力されます。 watsonx.aiStudio で、対応する「id
データアセットを選択します。 詳しくは、 SPSS ジョブでの複数のデータ・ソースの使用を参照してください。 - ローカル資産または管理対象資産を出力データ参照として作成するには、
output_data_reference
にname
フィールドを指定して、指定した名前でデータ資産が作成されるようにする必要があります。 既存のローカルデータ資産を参照するhref
は指定できません。
サポートされているデータベースを参照する接続済みデータ資産を output_data_references
で作成できるのは、 input_data_references
もこれらのソースのいずれかを参照している場合のみです。
Python クライアントを使用してジョブを作成する場合は、SPSS モデルモデルのデータノードで参照される接続名を
id
フィールドに、デプロイジョブのペイロードの入出力データ参照用のデータ資産の href をlocation.href
に指定する必要があります。 例えば、以下のようにジョブ・ペイロードを構成できます。job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
親トピック: フレームワークのよってのバッチ・デプロイメント入力の詳細