Siga estas reglas cuando especifique detalles de entrada para implantaciones por lotes de modelos SPSS.
Tabla de resumen de tipo de datos:
Datos | Descripción |
---|---|
Tipo | referencias de datos, en línea |
Formatos de archivo | CSV |
Orígenes de datos
Referencias de datos de entrada o salida:
- Activos locales o gestionados del espacio
- Activos conectados (remotos) desde estos orígenes:
Notas:
- Para las conexiones de tipo Cloud Object Storage o Cloud Object Storage (infraestructura), debe configurar Clave de acceso y Clave secreta, también denominadas credenciales HMAC.
- Para despliegues de SPSS , estos orígenes de datos no son compatibles con FIPS (Federal Information Processing Standard):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Volúmenes de almacenamiento
- Los nombres de tabla que se proporcionan en las referencias de datos de entrada y salida se ignoran. Los nombres de tabla a los que se hace referencia en el modelo SPSS se utilizan durante el despliegue por lotes.
- Utilice SQL PushBack para generar sentencias SQL para operaciones de IBM SPSS Modeler que se pueden "retrotraer" o ejecutar en la base de datos para mejorar el rendimiento. SQL Pushback sólo está soportado por:
- Db2
- SQL Server
- Netezza Performance Server
Utilización de datos conectados para una implantación por lotes
Un flujo SPSS Modeler puede tener varios nodos de importación y exportación de datos. Si los nodos utilizan conexiones a bases de datos, deben configurarse con los nombres de las tablas en los orígenes y destinos de datos. Estos nombres de tabla se utilizan posteriormente para los trabajos por lotes. Utilice los nodos de Activos de Datos para importar datos y los nodos de Exportación de Activos de Datos para exportarlos. Cuando esté configurando los nodos, elija el nombre de la tabla en Conexiones; no elija un activo de datos de su proyecto. Establezca los nodos y los nombres de las tablas antes de guardar y desplegar el modelo en watsonx.ai Runtime.
Cuando despliegue el modelo en un espacio de despliegue, compruebe que los nodos se conectan a una base de datos compatible en el espacio de despliegue. En un despliegue por lotes del modelo, los detalles de conexión se seleccionan a partir de las referencias de datos de entrada y salida, pero los nombres de las tablas de entrada y salida se seleccionan a partir del modelo SPSS Modeler. Se ignoran los nombres de las tablas de entrada y salida que se proporcionan en las referencias de datos conectadas.
Para la implementación por lotes de un modelo SPSS que utilice una conexión Cloud Object Storage, asegúrese de que el modelo SPSS tenga un único nodo de activos de datos de entrada y salida.
Combinaciones soportadas de orígenes de entrada y salida
Debe especificar fuentes de datos y destinos compatibles para la entrada y la salida del trabajo por lotes. Si especifica fuentes de datos y destinos incompatibles, obtendrá un error al intentar ejecutar el trabajo por lotes.
Estas combinaciones están soportadas para trabajos por lotes:
SPSS modelo de entrada/salida | Entrada de trabajo de despliegue por lotes | Salida de trabajo de despliegue por lotes |
---|---|---|
Archivo | Activo de conexión o activo de datos local, gestionado o referenciado (archivo) | Activo de datos remoto o activo de conexión (archivo) o nombre |
Base de datos | Activo de datos remoto o activo de conexión (base de datos) | Activo de datos remoto o activo de conexión (base de datos) |
Especificación de varias entradas
Si está especificando varias entradas para un despliegue de modelo SPSS sin esquema, especifique un ID para cada elemento en input_data_references
.
Para obtener más información, consulte Utilización de varios orígenes de datos para un trabajo de SPSS.
En este ejemplo, cuando cree el trabajo, proporcione tres entradas de entrada con los ID: sample_db2_conn
, sample_teradata_conn
y sample_googlequery_conn
y seleccione los datos conectados necesarios para cada entrada.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Especificación de referencias de datos mediante programación
Si está especificando referencias de datos de entrada y salida mediante programación:
- El
type
de referencia de origen de datos depende del tipo de activo. Consulte la sección Tipos de referencia de origen datos en Adición de activos de datos a un espacio de despliegue. - Los trabajos de SPSS soportan varias entradas de origen de datos y una única salida. Si el esquema no está en los metadatos del modelo cuando lo guardó, deberá introducir
id
manualmente y seleccionar un activo de datos para cada conexión. Si el esquema se proporciona en los metadatos para el modelo,id
nombres se rellenan automáticamente mediante el uso de metadatos. Seleccione el activo de datos para el 'id
s correspondiente en watsonx.ai Studio. Para obtener más información, consulte Utilización de varios orígenes de datos para un trabajo de SPSS. - Para crear un activo local o gestionado como referencia de datos de salida, se debe especificar el campo
name
paraoutput_data_reference
para que se cree un activo de datos con el nombre especificado. No se puede especificar unhref
que haga referencia a un activo de datos local existente.
Los activos de datos conectados que hacen referencia a bases de datos soportadas se pueden crear en output_data_references
sólo cuando input_data_references
también hace referencia a uno de estos orígenes.
Si está creando un trabajo mediante el cliente Python, debe proporcionar el nombre de conexión al que se hace referencia en los nodos de datos del modelo SPSS en el campo
id
, y la referencia del activo de datos enlocation.href
para las referencias de datos de entrada/salida de la carga útil de los trabajos de despliegue. Por ejemplo, puede construir la carga útil del trabajo de este modo:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
Tema principal: Detalles de entrada de despliegue por lotes por infraestructura