En un flujo de SPSS Modeler, es habitual tener varios nodos de importación y exportación, donde varios nodos de importación pueden obtener datos de una o más bases de datos relacionales. Puede utilizar watsonx.ai Runtime para crear un trabajo por lotes de SPSS Modeler que también utilice múltiples fuentes de datos de bases de datos relacionales.
Los ejemplos utilizan IBM Db2 e IBM Db2 Warehouse, a los que se hace referencia en ejemplos como dashdb.
Conexión a varias bases de datos relacionales como entrada a un trabajo por lotes
El número de nodos de importación en un flujo de SPSS Modeler puede variar. Puede utilizar un máximo de 60 o 70. Sin embargo, el número de conexiones distintas a bases de datos en estos casos son sólo algunas, aunque los nombres de tabla a los que se accede a través de las conexiones varían. En lugar de especificar los detalles para cada conexión de tabla, el enfoque que se describe aquí se centra en las conexiones de base de datos. Los trabajos por lotes aceptan una lista de conexiones de datos o referencias por nombre de nodo que se asignan a nombres de conexión en los nodos de importación del flujo SPSS Modeler.
El diagrama muestra cómo se combinan tres nodos de entrada para un flujo de modelador SPSS en un único nodo de salida para exportar los datos a otro conector. Después de guardar el modelo o flujo SPSS en un espacio de despliegue, cree un despliegue por lotes y proporcione datos de entrada para cada uno de los tres nodos de entrada del flujo. Ejecute el trabajo para generar el único archivo de salida para el despliegue.
Limitación: La referencia de conexión para un nodo en un flujo se altera temporalmente mediante la referencia que se recibe del trabajo por lotes. Sin embargo, el nombre de tabla en el nodo de importación o exportación no se altera temporalmente.
Flujo de SPSS Modeler con ejemplo
El siguiente diagrama muestra un flujo típico de SPSS Modeler. El flujo utiliza múltiples conectores como entrada en SPSS Modeler y exporta datos a un único conector como salida. En este ejemplo, el modelo se configura conectándose a 3 conectores, incluida una conexión con Db2 Warehouse (dashDB) y dos conexiones con bases de datos Db2 . Los nodos de importación leen datos de un total de 40 tablas, que incluyen 30 tablas de Db2 Warehouse y 5 tablas de dos bases de datos Db2 . El nodo de exportación graba datos en una única tabla de salida, la Tabla X, que se puede exportar como una única conexión Db2 .
Ejemplo
Estos pasos muestran cómo crear las conexiones e identificar las tablas.
Cree una conexión en el proyecto.
Para ejecutar el flujo SPSS Modeler, se inicia en el proyecto y se crea una conexión para cada una de las tres bases de datos a las que se conecta el flujo.
Para este ejemplo, las conexiones de base de datos en el proyecto se denominan
dashdb_conn
,db2_conn1
ydb2_conn2
.Configure los nodos de Activos de datos en su flujo SPSS Modeler para utilizar las conexiones.
Configure cada nodo de su flujo para que haga referencia a una de las tres conexiones que ha creado (
dashdb_conn
,db2_conn1
ydb2_conn2
) y, a continuación, especifique una tabla para cada nodo.Nota: Puede cambiar el nombre de la conexión en el momento de la ejecución del trabajo. Se hace referencia a los nombres de tabla que seleccione en el flujo cuando se ejecuta el trabajo. No puede sobrescribirlos ni cambiarlos.Guarde el modelo SPSS en el repositorio watsonx.ai Runtime.
Es útil proporcionar el esquema de entrada y salida al guardar un modelo. Simplifica el proceso de identificación de cada entrada al crear el trabajo por lotes en la interfaz de usuario de watsonx.ai Studio. Las conexiones a las que se hace referencia en los nodos Activo de datos del flujo SPSS Modeler se deben proporcionar en el campo nombre de nodo del esquema de entrada. Para localizar el nombre de nodo, efectúe una doble pulsación en el nodo de importación de activos de datos del flujo para abrir sus propiedades:
Nota:Los modelos SPSS que se guardan sin esquemas siguen siendo compatibles con los trabajos, pero debe introducir los campos nombre de nodo manualmente y proporcionar el activo de datos al crear el trabajo.
Este ejemplo de código muestra cómo guardar el esquema de entrada al guardar un modelo (Endpoint:
POST /v4/models
).{ "name": "SPSS Drug Model", "label_column": "label", "type": "spss-modeler_18.1", "runtime": { "href": "/v4/runtimes/spss-modeler_18.1" }, "space": { "href": "/v4/spaces/<space_id>" }, "schemas": { "input": [ { "id": "dashdb_conn", "fields": [] }, { "id": "db2_conn1 ", "fields": [] } , { "id": "db2_conn2", "fields": [] } ], "output": [{ "id": "db2_conn2 ","fields": [] }] } }
Nota: El número de campos en cada una de estas conexiones no importa. No se validan ni utilizan. Lo importante es el número de conexiones que se utilizan.Cree el despliegue por lotes para el modelo SPSS.
Para los modelos de SPSS , el proceso de creación del trabajo de despliegue por lotes es el mismo. Puede crear el despliegue con el modelo creado en el paso anterior.
Crear SPSS trabajos por lotes.
Puede crear un trabajo por lotes desde la interfaz de usuario de watsonx.ai Studio o mediante la API REST. Si el esquema se guarda con un modelo, la interfaz de usuario de watsonx.ai Studio simplifica la aceptación de entradas procedentes de las conexiones especificadas en el esquema. Como ya ha creado las conexiones de datos, puede seleccionar un activo de datos conectado para cada campo de nombre de nodo que se muestra en la interfaz de usuario de watsonx.ai Studio a medida que define el trabajo.
El nombre de la conexión que se crea en el momento del envío del trabajo puede ser diferente del utilizado en el momento de la creación del modelo. Sin embargo, debe asignarse al campo nombre de nodo .
Creación de trabajos para modelos cuando no se proporciona el esquema
Si el esquema no se proporciona en los metadatos del modelo en el momento en que se guarda el modelo, debe especificar el nombre de nodo de importación manualmente. Además, debe seleccionar el activo de datos en la interfaz de usuario de watsonx.ai Studio para cada conexión. Las conexiones a las que se hace referencia en los nodos de importación Activo de datos del flujo SPSS Modeler deben proporcionarse en el campo nombre de nodo de las referencias de datos de importación/exportación.
Especificación de las conexiones para un trabajo con activo de datos
Este ejemplo de código muestra cómo especificar las conexiones para un trabajo creado mediante la API REST (Endpoint: /v4/deployment_jobs
).
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [
{
"id": "dashdb_conn",
"name": "dashdb_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
"schema": {}
},
{
"id": "db2_conn1 ",
"name": "db2_conn1 ",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
"schema": {}
},
{
"id": "db2_conn2 ",
"name": "db2_conn2",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
"schema": {}
}],
"output_data_reference": {
"id": "db2_conn2"
"name": "db2_conn2",
"type": "data_asset ",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
"schema": {}
}
}
Tema principal: Detalles de entrada de despliegue por lotes por infraestructura