0 / 0
Retourner à la version anglaise de la documentation
Détails des entrées de déploiement par lots pour les modèles SPSS
Dernière mise à jour : 28 nov. 2024
Détails des entrées de déploiement par lots pour les modèles SPSS

Suivez ces règles lorsque vous spécifiez des détails d'entrée pour des déploiements par lots de modèles SPSS.

Tableau récapitulatif du type de données :

Données Descriptif
Type références de données, en ligne
Formats de fichier format CSV

Sources de données

Références de données d'entrée ou de sortie:

Remarques :

  • Pour les connexions de type Cloud Object Storage ou Cloud Object Storage (infrastructure), vous devez configurer une clé d'accès et une clé secrète, également appelé Données d'identification HMAC.
  • Pour les déploiements SPSS , ces sources de données ne sont pas conformes à la norme FIPS (Federal Information Processing Standard):
    • Cloud Object Storage
    • Cloud Object Storage (infrastructure)
    • Volumes de stockage
  • Les noms de table fournis dans les références de données d'entrée et de sortie sont ignorés. Les noms de tables auxquels il est fait référence dans le modèle SPSS sont utilisés lors du déploiement par lots.
  • Utilisez SQL PushBack pour générer des instructions SQL pour les opérations IBM SPSS Modeler qui peuvent être "répercutées" ou exécutées dans la base de données afin d'améliorer les performances. SQL Pushback est uniquement pris en charge par:
    • Db2
    • SQL Server
    • Netezza Performance Server

Utilisation de données connectées pour un déploiement par lots

Un flux SPSS Modeler peut comporter un certain nombre de nœuds d'importation et d'exportation de données. Si les nœuds utilisent des connexions de base de données, ils doivent être configurés avec les noms des tables dans les sources de données et les cibles. Ces noms de tables sont utilisés ultérieurement pour les travaux par lots. Utilisez les nœuds Data Asset pour importer des données et les nœuds Data Asset Export pour les exporter. Lorsque vous configurez les nœuds, choisissez le nom de la table dans Connections ; ne choisissez pas une ressource de données dans votre projet. Définissez les noms des nœuds et des tables avant d'enregistrer et de déployer le modèle dans watsonx.ai Runtime.

Lorsque vous déployez le modèle dans un espace de déploiement, vérifiez que les nœuds se connectent à une base de données prise en charge dans l'espace de déploiement. Dans un déploiement par lots du modèle, les détails de connexion sont sélectionnés à partir des références de données d'entrée et de sortie, mais les noms des tables d'entrée et de sortie sont sélectionnés à partir du modèle SPSS Modeler. Les noms des tables d'entrée et de sortie fournis dans les références de données connectées sont ignorés.

Pour le déploiement par lots d'un modèle SPSS qui utilise une connexion Cloud Object Storage, assurez-vous que le modèle SPSS possède un seul nœud d'actifs de données d'entrée et de sortie.

Combinaisons de sources d'entrée et de sortie prises en charge

Vous devez spécifier des sources de données et des cibles compatibles pour l'entrée et la sortie du travail par lots. Si vous spécifiez des sources de données et des cibles incompatibles, vous obtenez une erreur lorsque vous essayez d'exécuter le travail par lots.

Les combinaisons suivantes sont prises en charge pour les travaux par lot :

SPSS entrée/sortie du modèle Entrée de travail de déploiement par lot Sortie de travail de déploiement par lot
Fichier Actif de données local, géré ou référencé ou actif de connexion (fichier) Actif de données distant ou actif de connexion (fichier) ou nom
Base de données Actif de données distant ou actif de connexion (base de données) Actif de données distant ou actif de connexion (base de données)

Spécification de plusieurs entrées

Si vous spécifiez plusieurs entrées pour un déploiement de modèle SPSS sans schéma, spécifiez un identifiant pour chaque élément dans input_data_references.

Pour plus d'informations, voir Utilisation de plusieurs sources de données pour un travail SPSS.

Dans cet exemple, lorsque vous créez le travail, fournissez trois entrées d'entrée avec les ID: sample_db2_conn, sample_teradata_connet sample_googlequery_conn et sélectionnez les données connectées requises pour chaque entrée.

{
"deployment": {
    "href": "/v4/deployments/<deploymentID>"
  },
  "scoring": {
  	  "input_data_references": [{
               "id": "sample_db2_conn",
               "name": "DB2 connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_teradata_conn",
               "name": "Teradata connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_googlequery_conn",
               "name": "Google bigquery connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           }],
  	  "output_data_references": {
  	  	        "id": "sample_db2_conn",
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                },
          }
}
Remarque: le paramètre des variables d'environnement des travaux de déploiement n'est pas applicable.

Spécifier des références de données par programme

Si vous spécifiez les références des données d'entrée et de sortie par programme :

  • La référence de la source de données type dépend du type d'actif. Reportez-vous à la section des types de référence de source de données dans Ajout d'actifs de données à un espace de déploiement.
  • Les travaux SPSS prennent en charge plusieurs entrées de source de données et une seule sortie. Si le schéma ne figure pas dans les métadonnées du modèle lorsque vous l'avez enregistré, vous devez saisir id manuellement et sélectionner une ressource de données pour chaque connexion. Si le schéma est fourni dans les métadonnées du modèle, les noms des id sont remplis automatiquement en utilisant les métadonnées. Vous sélectionnez l'actif de données pour le " idcorrespondant dans watsonx.ai Studio. Pour plus d'informations, voir Utilisation de plusieurs sources de données pour un travail SPSS.
  • Pour créer un actif local ou géré en tant que référence de données de sortie, la zone name doit être spécifiée pour output_data_reference afin qu'un actif de données soit créé avec le nom spécifié. Vous ne pouvez pas spécifier un href qui fait référence à une donnée locale existante.
Remarque :

Les actifs de données connectés qui font référence à des bases de données prises en charge peuvent être créés dans le output_data_references uniquement lorsque input_data_references fait également référence à l'une de ces sources.

  • Si vous créez un travail en utilisant le client Python, vous devez fournir le nom de la connexion qui est référencée dans les nœuds de données du modèle SPSS dans le champ id, et le href de la ressource de données dans location.href pour les références de données d'entrée/sortie de la charge utile des travaux de déploiement. Par exemple, vous pouvez construire le contenu du travail comme suit:

    job_payload_ref = {
        client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{
            "id": "DB2Connection",
            "name": "drug_ref_input1",
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <input_asset_href1>
            }
        },{
            "id": "Db2 WarehouseConn",
            "name": "drug_ref_input2",
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <input_asset_href2>
            }
        }],
        client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: {
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": <output_asset_href>
                }
            }
        }
    

Rubrique parent : Détails des entrées de déploiement par lots par structure