Suivez ces règles lorsque vous spécifiez des détails d'entrée pour des déploiements par lots de modèles SPSS.
Tableau récapitulatif du type de données :
Données | Descriptif |
---|---|
Type | références de données, en ligne |
Formats de fichier | CSV |
Sources de données
Références des données d'entrée ou de sortie :
- Actifs locaux ou gérés de l'espace
- Actifs connectés (distants) à partir des sources suivantes :
Remarques :
- Pour les connexions de type Cloud Object Storage ou Cloud Object Storage (infrastructure), vous devez configurer une clé d'accès et une clé secrète, également appelé Données d'identification HMAC.
- Pour les déploiements SPSS, ces sources de données ne sont pas conformes à la norme FIPS (Federal Information Processing Standard) :
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Volumes de stockage
- Les noms de tables fournis dans les références aux données d'entrée et de sortie sont ignorés. Les noms de table auxquels il est fait référence dans le modèle SPSS sont utilisés lors du déploiement par lots.
- Utilisez SQL PushBack pour générer des instructions SQL pour les opérations IBM SPSS Modeler qui peuvent être "repoussées" ou exécutées dans la base de données pour améliorer les performances. SQL Pushback n'est supporté que par :
- Db2
- SQL Server
- Netezza Performance Server
Utilisation de données connectées pour un déploiement par lots
Un flux SPSS Modeler peut comporter un certain nombre de nœuds d'importation et d'exportation de données. Si les nœuds utilisent des connexions de base de données, ils doivent être configurés avec les noms des tables dans les sources de données et les cibles. Ces noms de tables sont utilisés ultérieurement pour les travaux par lots. Utilisez les nœuds Data Asset pour importer des données et les nœuds Data Asset Export pour les exporter. Lorsque vous configurez les nœuds, choisissez le nom de la table dans Connections ; ne choisissez pas une ressource de données dans votre projet. Définissez les noms des nœuds et des tables avant d'enregistrer et de déployer le modèle dans watsonx.ai Runtime.
Lorsque vous déployez le modèle dans un espace de déploiement, vérifiez que les nœuds se connectent à une base de données prise en charge dans l'espace de déploiement. Dans un déploiement par lots du modèle, les détails de connexion sont sélectionnés à partir des références de données d'entrée et de sortie, mais les noms des tables d'entrée et de sortie sont sélectionnés à partir du modèle SPSS Modeler. Les noms des tables d'entrée et de sortie fournis dans les références de données connectées sont ignorés.
Pour le déploiement par lots d'un modèle SPSS qui utilise une connexion Cloud Object Storage, assurez-vous que le modèle SPSS possède un seul nœud de ressources de données d'entrée et de sortie.
Combinaisons de sources d'entrée et de sortie prises en charge
Vous devez spécifier des sources de données et des cibles compatibles pour l'entrée et la sortie du travail par lots. Si vous spécifiez des sources de données et des cibles incompatibles, vous obtenez une erreur lorsque vous essayez d'exécuter le travail par lots.
Les combinaisons suivantes sont prises en charge pour les travaux par lots :
Entrée/sortie du modèle SPSS | Entrée de travail de déploiement par lot | Sortie de travail de déploiement par lots |
---|---|---|
Fichier | Actif de données ou actif de connexion (fichier) local, géré ou référencé | Actif de données distant ou actif de connexion (fichier) ou nom |
Base de données | Actif de données distant ou actif de connexion (base de données) | Actif de données distant ou actif de connexion (base de données) |
Spécification de plusieurs entrées
Si vous spécifiez plusieurs entrées pour un déploiement de modèle SPSS sans schéma, spécifiez un ID pour chaque élément dans 'input_data_references
.
Pour plus d'informations, voir Utilisation de plusieurs sources de données pour un job SPSS.
Dans cet exemple, lorsque vous créez le job, vous fournissez trois entrées avec les identifiants : " sample_db2_conn
, " sample_teradata_conn
et " sample_googlequery_conn
et vous sélectionnez les données connectées requises pour chaque entrée.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Spécifier des références de données par programme
Si vous spécifiez les références des données d'entrée et de sortie par programme :
- La référence de la source de données
type
dépend du type d'actif. Reportez-vous à la section des types de référence de source de données dans Ajout d'actifs de données à un espace de déploiement. - Les travaux SPSS prennent en charge plusieurs entrées de source de données et une seule sortie. Si le schéma ne figure pas dans les métadonnées du modèle au moment où vous l'avez enregistré, vous devez saisir manuellement le "
id
et sélectionner une ressource de données pour chaque connexion. Si le schéma est fourni dans les métadonnées du modèle, les noms de "id
sont remplis automatiquement à l'aide des métadonnées. Vous sélectionnez l'actif de données pour le "id
correspondant dans watsonx.ai Studio. Pour plus d'informations, voir Utilisation de plusieurs sources de données pour un job SPSS. - Pour créer une ressource locale ou gérée en tant que référence de données de sortie, le champ "
name
doit être spécifié pour "output_data_reference
afin qu'une ressource de données soit créée avec le nom spécifié. Vous ne pouvez pas spécifier un "href
qui fait référence à une donnée locale existante.
Les biens de données connectés qui font référence aux bases de données prises en charge ne peuvent être créés dans le " output_data_references
que si le " input_data_references
fait également référence à l'une de ces sources.
Si vous créez un job en utilisant le client Python, vous devez fournir le nom de la connexion qui est référencée dans les nœuds de données du modèle SPSS dans le champ "
id
, et le href de l'actif de données dans "location.href
pour les références de données d'entrée/sortie de la charge utile des jobs de déploiement. Par exemple, vous pouvez construire la charge utile du travail comme suit :job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
Rubrique parent : Détails des entrées de déploiement par lots par structure