0 / 0

IBM DataStage pour Cloud Pak for Data configuration de la lignée

Dernière mise à jour : 15 avr. 2025
IBM DataStage pour Cloud Pak for Data configuration de la lignée

Pour importer des métadonnées de lignage de IBM DataStage pour Cloud Pak for Data, créez une connexion, une définition de source de données et une tâche d'importation de métadonnées.

Pour importer des métadonnées de lignage pour IBM DataStage pour Cloud Pak for Data, procédez comme suit :

  1. Créer une définition de la source de données.
  2. Créer une connexion à la source de données dans un projet.
  3. Créer une importation de métadonnées.

Création d'une définition de source de données

Créer une définition de la source de données. Sélectionnez IBM DataStage pour Cloud Pak for Data comme type de source de données.

Création d'une connexion à DataStage pour Cloud Pak for Data

Créer une connexion à la source de données dans un projet. Pour les détails de connexion, voir DataStage pour la connexion Cloud Pak for Data.

  • Pour se connecter à DataStage pour Cloud Pak for Data, fournir un nom d'utilisateur et un mot de passe.
  • Pour se connecter à DataStage pour Cloud Pak for Data as a Service, fournir la clé API. Si vous n'en avez pas, dans le menu de navigation, allez dans Administration > Accès (IAM) > Gérer les identités > Clés API et créez une nouvelle clé API. Utiliser la valeur du jeton dans les détails de la connexion.
  • Spécifiez un certificat si votre instance DataStage for Cloud Pak for Data ne se trouve pas sur le même cluster que le projet dans lequel vous souhaitez créer une tâche d'importation de métadonnées.

Création d'une importation de métadonnées

Créer une importation de métadonnées. En savoir plus sur les options spécifiques à DataStage pour la source de données Cloud Pak for Data :

Listes d'inclusion et d'exclusion

Vous pouvez inclure ou exclure des actifs jusqu'au niveau du flux. Fournir des bases de données et des schémas au format projet/flux. Chaque partie est évaluée comme une expression régulière. Les actifs ajoutés ultérieurement dans la source de données seront également inclus ou exclus s'ils répondent aux conditions spécifiées dans les listes. Exemples de valeurs :

  • myProject/: tous les flux dans le projet myProject .
  • myProject3/myFlow1: myFlow1 flow from myProject3 project.

Entrées externes

En option, vous pouvez fournir des données externes sous la forme d'un fichier.zip. Vous ajoutez ce fichier dans le champ Ajouter des entrées à partir d'un fichier. Vous pouvez décider d'ajouter des données externes en plus de l'étendue définie des données extraites, ou vous pouvez importer des données à partir des données externes uniquement. Pour ajouter une entrée externe, procédez comme suit :

  1. Préparez un fichier.zip comme entrée externe.
  2. Téléchargez le fichier.zip dans le projet.
  3. Configurer l'importation pour qu'elle n'utilise que l'entrée externe.

Préparer un fichier.zip comme entrée externe

Vous pouvez fournir les flux DataStage en tant qu'entrées externes dans un fichier.zip. Le dossier doit avoir la structure suivante :

  • <project_export.zip> - Un projet DataStage exporté dans un fichier.zip.
  • DSParams - Un fichier qui contient les paramètres au niveau du projet ou de l'environnement, le cas échéant. Vous pouvez obtenir ce fichier dans le répertoire du projet.
  • datastageParameterOverride.txt - Un fichier contenant des dérogations aux jeux de paramètres si vos travaux utilisent des jeux de paramètres.
  • connection_definition/odbcConnectionDefinition.ini - Un fichier contenant des définitions de connexion pour les connexions ODBC. Les définitions des connexions ODBC ne sont pas incluses dans les exportations XML DataStage et doivent être spécifiées séparément.
  • datastageComponentOverrides.csv - Un fichier avec des dérogations de lignage de composants.
Remarque : Même si vous souhaitez utiliser uniquement un projet dans un fichier.zip, ce fichier.zip doit être compressé dans un autre fichier.zip pour être téléchargé dans le projet.

Le format du fichier.zip contenant le projet DataStage exporté Lorsque vous exportez un projet DataStage, il doit avoir la structure suivante :

  • assets - dossier obligatoire.
    • .METADATA - dossier obligatoire.
    • data_intg_flow.*.json - des fichiers obligatoires contenant des informations sur les flux.
    • connection.*.json - des fichiers facultatifs contenant des informations sur les connexions.
    • parameter_set.*.json - des fichiers facultatifs contenant des informations sur les jeux de paramètres.
    • job.*.json - des fichiers facultatifs contenant des informations sur les travaux.
    • job_run.*.json -des fichiers facultatifs contenant des informations sur des exécutions particulières du travail.
    • data_intg_flow - dossier obligatoire.
    • Au moins un fichier qui contient la chaîne "schemas":[{, mais qui ne se termine pas par px_executables.
  • assettypes - dossier obligatoire.
  • project.json - dossier requis. Il peut y avoir plusieurs instances de ce fichier à la suite de la décompression ZIP, ce qui est correct.

Le format du fichier datastageParameterOverride.txt Le fichier datastageParameterOverride.txt a le contenu suivant :

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

Le format du fichier connection_definition/odbcConnectionDefinition.ini Le fichier connection_definition/odbcConnectionDefinition.ini a le contenu suivant. Créez une section [Shortcut_Name] distincte pour chaque connexion.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name : Le nom de la connexion ou du serveur de données utilisé par l'outil d'intégration de données.
  • connection_type : Le type de source de données.
  • chaîne_de_connexion : Une chaîne de connexion JDBC ou toute identification de la base de données telle que l'ID système (SID) ou le nom d'hôte.
  • server_name : la valeur dépend du type de source de données :
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase ), ou Teradata : Le nom du serveur.
    • FTP : le nom d'hôte.
    • Oracle et d'autres bases de données : La valeur est ignorée.
  • database_name : la valeur dépend du type de source de données :
    • Oracle : Le nom de la base de données globale.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase ), Teradata, et d'autres bases de données : Le nom de la base de données par défaut.
    • user_name : le nom de l'utilisateur qui se connecte à la base de données.

Ajouter une nouvelle ligne à la fin des paramètres pour chaque section.

Le format du fichier datastageComponentOverrides.csv Le fichier datastageComponentOverrides.csv a le contenu suivant :

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Le chemin vers l'étape se présente sous la forme suivante : Job/[Shared and Local containers optional]/Stage.

Télécharger le fichier.zip dans le projet

Pour utiliser le fichier.zip dans l'importation de métadonnées, vous devez l'ajouter au projet dans lequel vous créez l'importation de métadonnées.

  1. Dans le projet, cliquez sur Importer des actifs.
  2. Dans la section Fichier local, cliquez sur Actif de données.
  3. Ajoutez le fichier.zip au projet DataStage.

Lorsque vous créez l'importation de métadonnées, vous pouvez sélectionner ce fichier à l'étape Ajouter des entrées à partir d'un fichier.

Configurer l'importation pour qu'elle n'utilise que l'entrée externe

Si vous souhaitez importer des métadonnées uniquement à partir de l'entrée externe fournie, et non directement à partir de l'instance DataStage for Cloud Pak for Data connectée, procédez comme suit :

  1. Ajoutez le fichier.zip dans la section Add inputs from file et cliquez sur Next.
  2. Développez la liste des phases d'importation de lignage et désactivez la phase d' extraction des transformations.

Options d'importation avancées

Analyser les exécutions de travail
Indique si les exécutions de travaux sont analysées.
Analyser les exécutions de travail depuis
Spécifie la date à partir de laquelle les exécutions sont analysées. Si la valeur est vide, toutes les séries sont analysées. Exemple de valeur : 1970/01/01 00:00:00.000.
Analyser les travaux séparément
Indique si les travaux doivent être analysés séparément, même si d'autres exécutions leur sont associées.
Analyser les flux sans les travaux
Spécifie si les flux sans travaux sont analysés.
Authentification de l'utilisateur du proxy Oracle
Vous pouvez utiliser l'authentification de l'utilisateur par proxy Oracle. Attribuez la valeur true pour transformer les noms d'utilisateur Oracle au format \"USERNAME[SCHEMA_OWNER]\" en format \"SCHEMA_OWNER\" . Dans les autres cas, la valeur est fixée à false.
Fichiers de valeur
Spécifiez les noms des fichiers de valeurs à utiliser dans les jeux de paramètres, par ordre de priorité. Par exemple, DEV1,TEST,PROD.

En savoir plus

Sujet parent : Connecteurs supportés pour l'importation de lignées