Création d'un travail par lots SPSS Modeler avec plusieurs sources de données

Retourner à la version anglaise de la documentation

Dernière mise à jour : 21 nov. 2024

Création d'un travail par lots SPSS Modeler avec plusieurs sources de données

Dans un flux SPSS Modeler, il est commun d'avoir plusieurs nœuds d'importation et d'exportation, où plusieurs nœuds d'importation peuvent extraire des données d'une ou de plusieurs bases de données relationnelles. Vous pouvez utiliser watsonx.ai Runtime pour créer un job batch SPSS Modeler qui utilise également plusieurs sources de données provenant de bases de données relationnelles.

Remarque :

Les exemples utilisent IBM Db2 et IBM Db2 Warehouse, appelés dashdbdans les exemples.

Connexion à plusieurs bases de données relationnelles en tant qu'entrée dans un travail par lots

Le nombre de noeuds d'importation dans un flux SPSS Modeler peut varier. Vous pouvez utiliser jusqu'à 60 ou 70 noeuds d'importation. Cependant, le nombre de connexions distinctes aux bases de données dans ces cas est limité, bien que les noms de table accessibles via les connexions varient. Au lieu de spécifier les détails de chaque connexion de table, l'approche décrite ici se concentre sur les connexions de base de données. Les travaux par lots acceptent une liste de connexions ou de références de données par node name qui sont mappées aux noms de connexion dans les nœuds d'importation du flux SPSS Modeler.

Le diagramme montre comment trois noeuds d'entrée pour un flux de modélisateur SPSS sont combinés en un seul noeud de sortie pour exporter les données vers un autre connecteur. Après avoir enregistré le modèle ou le flux SPSS dans un espace de déploiement, vous créez un déploiement par lots et fournissez des données d'entrée pour chacun des trois nœuds d'entrée du flux. Exécutez le travail pour générer le fichier de sortie unique pour le déploiement.

Flux de la création de modèles à la création d'emplois

Limitation: La référence de connexion d'un noeud dans un flux est remplacée par la référence reçue du travail par lots. Toutefois, le nom de la table dans le noeud d'importation ou d'exportation n'est pas remplacé.

Flux SPSS Modeler avec exemple

Le diagramme suivant montre un flux typique de SPSS Modeler. Le flux utilise plusieurs connecteurs en entrée dans SPSS Modeler et exporte des données vers un seul connecteur en sortie. Dans cet exemple, le modèle est configuré en se connectant à 3 connecteurs, dont une connexion à Db2 Warehouse (dashDB) et deux connexions aux bases de données Db2 . Les noeuds d'importation lisent les données à partir d'un total de 40 tables, qui comprend 30 tables de Db2 Warehouse et 5 tables de deux bases de données Db2 . Le noeud d'exportation écrit des données dans une table de sortie unique, la table X, qui peut être exportée en tant que connexion Db2 unique.

Flux SPSS Modeler avec plusieurs entrées

Exemple

Les étapes ci-après montrent comment créer les connexions et identifier les tables.

Créez une connexion dans votre projet.

Pour exécuter le flux SPSS Modeler, vous démarrez votre projet et créez une connexion pour chacune des trois bases de données auxquelles votre flux se connecte.

Pour cet exemple, les connexions de base de données dans le projet sont nommées dashdb_conn, db2_conn1et db2_conn2.
Configurez les nœuds Data Asset dans votre flux SPSS Modeler pour utiliser les connexions.

Configurez chaque nœud de votre flux pour qu'il fasse référence à l'une des trois connexions que vous avez créées (dashdb_conn, db2_conn1 et db2_conn2), puis spécifiez une table pour chaque nœud.

Remarque: Vous pouvez modifier le nom de la connexion au moment de l'exécution du travail. Les noms de table que vous sélectionnez dans le flux sont référencés lors de l'exécution du travail. Vous ne pouvez pas les remplacer ou les modifier.
Enregistrez le modèle SPSS dans le référentiel watsonx.ai Runtime.

Il est utile de fournir les schémas d'entrée et de sortie lorsque vous enregistrez un modèle. Il simplifie le processus d'identification de chaque entrée lorsque vous créez le travail par lots dans l'interface utilisateur de watsonx.ai Studio. Les connexions référencées dans les noeuds Actif de données du flux SPSS Modeler doivent être fournies dans la zone nom de noeud du schéma d'entrée. Pour rechercher le fichier Nom du noeud, cliquez deux fois sur le noeud d'importation de l'actif de données dans votre flux pour ouvrir ses propriétés :

Remarque :
Les modèles SPSS enregistrés sans schémas sont toujours pris en charge pour les travaux, mais vous devez saisir manuellement les champs node name et fournir la ressource de données lorsque vous créez le travail.

Cet exemple de code montre comment enregistrer le schéma d'entrée lorsque vous enregistrez un modèle (point de terminaison : POST /v4/models).
```
     {
           "name": "SPSS Drug Model",
           "label_column": "label",
           "type": "spss-modeler_18.1",
           "runtime": {
                   "href": "/v4/runtimes/spss-modeler_18.1"
            },
            "space": {
                   "href": "/v4/spaces/<space_id>"
            },
            "schemas": {
                      "input":  [ { "id": "dashdb_conn", "fields": [] },
                                        { "id": "db2_conn1 ", "fields": [] } ,
                                        { "id": "db2_conn2", "fields": [] } ],
                       "output": [{ "id": "db2_conn2 ","fields": [] }]
             }
     }
```
Remarque : Le nombre de zones dans chacune de ces connexions n'a pas d'importance. Elles ne sont pas validées ou utilisées. Ce qui est important est le nombre de connexions utilisées.
Créez le déploiement par lots pour le modèle SPSS.

Pour les modèles SPSS , le processus de création du travail de déploiement par lots est identique. Vous pouvez créer le déploiement avec le modèle qui a été créé à l'étape précédente.
Créez des travaux batch SPSS.

Vous pouvez créer un travail par lots à partir de l'interface utilisateur de watsonx.ai Studio ou en utilisant l'API REST. Si le schéma est enregistré avec un modèle, l'interface utilisateur de watsonx.ai Studio permet d'accepter facilement les données provenant des connexions spécifiées dans le schéma. Comme vous avez déjà créé les connexions de données, vous pouvez sélectionner une ressource de données connectée pour chaque champ de nom de nœud qui s'affiche dans l'interface utilisateur de watsonx.ai Studio lorsque vous définissez le travail.

Le nom de la connexion créée lors de la soumission du travail peut être différent de celui utilisé lors de la création du modèle. Toutefois, il doit être affecté à la zone nom de noeud .

Création de tâches pour les modèles lorsque le schéma n'est pas fourni

Si le schéma n'est pas fourni dans les métadonnées du modèle lors de l'enregistrement du modèle, vous devez entrer le nom du noeud d'importation manuellement. En outre, vous devez sélectionner l'actif de données dans l'interface utilisateur de watsonx.ai Studio pour chaque connexion. Les connexions référencées dans les noeuds d'importation d'actif de données du flux SPSS Modeler doivent être fournies dans la zone nom de noeud des références de données d'importation/exportation.

Spécification des connexions pour un travail avec un actif de données

Cet exemple de code montre comment spécifier les connexions pour un travail créé à l'aide de l'API REST (point de terminaison : /v4/deployment_jobs).

         {
                     "deployment": {
                                    "href": "/v4/deployments/<deploymentID>"
                        },
                        "scoring": {
                                    "input_data_references": [
                                       {
                                          "id": "dashdb_conn",
                                          "name": "dashdb_conn",
                                          "type": "data_asset",
                                          "connection": {},
                                          "location": {
                                                      "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                                             },
                                             "schema": {}
                                    },
                                    {
                                             "id": "db2_conn1 ",
                                             "name": "db2_conn1 ",
                                             "type": "data_asset",
                                             "connection": {},
                                             "location": {
                                                      "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                                             },
                                             "schema": {}
                                    },
                                    {
                                             "id": "db2_conn2 ",
                                             "name": "db2_conn2",
                                             "type": "data_asset",
                                             "connection": {},
                                             "location": {
                                                      "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                                             },
                                             "schema": {}
                                    }],
                                    "output_data_reference": {
                                             "id": "db2_conn2"
                                             "name": "db2_conn2",
                                             "type": "data_asset ",
                                             "connection": {},
                                             "location": {
                                                      "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                                             },
                                             "schema": {}
                                    }
         }

Rubrique parent : Détails des entrées de déploiement par lots par structure