在为 SPSS 模型的批量部署指定输入详细信息时,请遵循这些规则。
数据类型摘要表:
数据 | 描述 |
---|---|
类型 | 数据引用,内联 |
文件格式 | CSV |
数据源
输入或输出数据引用:
- 空间中的本地资产或受管资产
- 来自以下源的已连接(远程)资产:
注:
- 对于Cloud Object Storage Cloud Object Storage (infrastructure)类型的连接,您必须配置访问密钥和保密密钥(也称为HMAC 凭证)。
- 对于 SPSS 部署,这些数据源不符合联邦信息处理标准 (FIPS):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- 存储卷
- 将忽略输入和输出数据引用中提供的表名。 SPSS 模型中引用的表名将在批量部署过程中使用。
- 使用 SQL PushBack 为 IBM SPSS Modeler 操作生成 SQL 语句,这些操作可以 "推回" 到数据库或在数据库中运行,以提高性能。 SQL 回送仅受以下项支持:
- Db2
- SQL Server
- Netezza Performance Server
使用连接数据进行批量部署
SPSS Modeler 流程可以有多个数据导入和导出节点。 如果节点使用数据库连接,则必须根据数据源和目标中的表名进行配置。 这些表名稍后将用于批处理工作。 使用数据资产节点导入数据,使用数据资产导出节点导出数据。 配置节点时,请从 "连接 "中选择表名;不要选择项目中的数据资产。 在保存模型并将其部署到watsonx.aiRuntime 之前,请先设置节点和表名。
将模型部署到部署空间时,请检查节点是否连接到部署空间中受支持的数据库。 在批量部署模型时,连接详细信息是从输入和输出数据引用中选择的,但输入和输出表名是从 SPSS Modeler 模型中选择的。 连接数据引用中提供的输入和输出表名称将被忽略。
对于使用 Cloud Object Storage 连接的 SPSS 模型的批量部署,请确保 SPSS 模型具有单个输入和输出数据资产节点。
支持的输入源与输出源组合
您必须为批处理任务输入和输出指定兼容的数据源和目标。 如果指定了不兼容的数据源和目标,则在尝试运行批处理作业时会出现错误。
批处理作业支持下列组合:
SPSS 模型输入/输出 | 批量部署作业输入 | 批量部署作业输出 |
---|---|---|
文件 | 本地,受管或引用的数据资产或连接资产 (文件) | 远程数据资产或连接资产(文件)或名称 |
数据库 | 远程数据资产或连接资产(数据库) | 远程数据资产或连接资产(数据库) |
指定多个输入
如果要为没有模式的 SPSS 模型部署指定多个输入,请在 input_data_references
中为每个元素指定一个 ID。
有关更多信息,请参阅 将多个数据源用于 SPSS 作业。
在此示例中,创建作业时,请提供三个具有标识的输入条目: sample_db2_conn
, sample_teradata_conn
和 sample_googlequery_conn
,并为每个输入选择所需的已连接数据。
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
以编程方式指定数据引用
如果以编程方式指定输入和输出数据引用:
- 数据源引用
type
取决于资产类型。 请参阅 将数据资产添加到部署空间中的 数据源引用类型 部分。 - SPSS 作业支持多个数据源输入和单个输出。 如果模式不在保存模型时的元数据中,则必须手动输入
id
并为每个连接选择一个数据资产。 如果在模型的元数据中提供了模式,id
名称会通过使用元数据自动填充。 您在watsonx.aiStudio 中为相应的 "id
s 选择数据资产。 有关更多信息,请参阅 将多个数据源用于 SPSS 作业。 - 要创建本地资产或受管资产作为输出数据引用,必须为
output_data_reference
指定name
字段,以便创建具有指定名称的数据资产。 您不能指定指向现有本地数据资产的href
。
仅当 input_data_references
还引用其中一个源时,才能在 output_data_references
中创建引用受支持数据库的已连接数据资产。
如果使用 Python 客户端创建作业,则必须在
id
字段中提供 SPSS 模型的数据节点中引用的连接名称,并在location.href
中提供数据资产 href,用于部署作业有效负载的输入/输出数据引用。 例如,可以如下所示构造作业有效内容:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
父主题: 按框架列出的批处理部署输入详细信息