0 / 0
Retourner à la version anglaise de la documentation
Configuration de l'importation de métadonnées pour les ressources d'intégration de données
Dernière mise à jour : 04 oct. 2024
Configuration de l'importation de métadonnées pour les ressources d'intégration de données

L'intégration de données utilise des processus techniques et métier pour combiner des données provenant de différentes sources et créer des informations significatives et utiles pour votre entreprise. Les outils d'intégration de données peuvent utiliser des modèles d'extraction, de transformation et de chargement (ETL) pour transformer et organiser les données en fonction des besoins métier. Ces travaux ETL déplacent les données des systèmes source vers les systèmes cible.

Vous pouvez importer des métadonnées de lignage depuis InfoSphere DataStage et DataStage for Cloud Pak for Data. Vous ne pouvez pas importer d'actifs à partir de ces sources.

InfoSphere DataStage

Lorsque vous créez une importation de métadonnées de lignage pour InfoSphere DataStage, vous pouvez définir des options spécifiques à cette source de données et définir l'étendue des données pour lesquelles le lignage est généré. Pour plus d'informations sur l'importation de métadonnées, voir Conception des importations de métadonnées.

Entrées externes

Vous pouvez fournir des actifs InfoSphere DataStage tels que des travaux, des étapes ou des fichiers de métadonnées opérationnelles en tant qu'entrées externes dans un fichier ZIP. Le dossier doit avoir la structure suivante :

  • <job_name.xml> - The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.
  • omd_files - A folder for operational metadata (OMD) files.
    • <omd_file_name> - Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
  • sql_files - A folder that contains all SQL files.
    • <sql_file_name> - A file with SQL queries.
  • DSParams - A file that contains the project- or environment-level parameters if applicable. Vous pouvez obtenir ce fichier dans le répertoire du projet.
  • datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
  • connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. Les définitions des connexions ODBC ne sont pas incluses dans les exportations XML DataStage et doivent être spécifiées séparément.
  • datastageComponentOverrides.csv - A file with component-lineage overrides.


du fichier datastageParameterOverride.txt Le fichier datastageParameterOverride.txt a le contenu suivant :

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"


du fichier connection_definition/odbcConnectionDefinition.ini Le fichier connection_definition/odbcConnectionDefinition.ini a le contenu suivant. Créez une section [Shortcut_Name] distincte pour chaque connexion.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name: nom de la connexion ou du serveur de données utilisé par l'outil d'intégration de données.
  • connection_type: type de la source de données.
  • connection_string: Chaîne de connexion JDBC ou toute identification de la base de données, telle que l'ID système (SID) ou le nom d'hôte.
  • server_name: la valeur dépend du type de source de données:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase) ou Teradata: nom du serveur.
    • FTP: nom d'hôte.
    • Oracle et autres bases de données: la valeur est ignorée.
  • database_name: la valeur dépend du type de source de données:
    • Oracle: nom de la base de données globale.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase), Teradataet d'autres bases de données: nom de la base de données par défaut.
    • user_name: nom de l'utilisateur qui se connecte à la base de données.

Ajoutez une nouvelle ligne à la fin des paramètres de chaque section.


du fichier datastageComponentOverrides.csv Le fichier datastageComponentOverrides.csv a le contenu suivant :

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Le chemin d'accès à l'étape est au format Job/[Shared and Local containers optional]/Stage.

Options d'importation avancées

Authentification des utilisateurs du proxyOracle
Vous pouvez utiliser l'authentification de l'utilisateur par proxy Oracle. Attribuez la valeur true pour remplacer les noms d'utilisateur Oracle au format \"USERNAME[SCHEMA_OWNER]\" par des noms au format \"SCHEMA_OWNER\". Dans les autres cas, la valeur est false
Fichiers de valeur
Spécifiez les noms des fichiers de valeurs à utiliser dans les jeux de paramètres, par ordre de priorité. Par exemple, DEV1,TEST,PROD.

DataStage for Cloud Pak for Data

Lorsque vous créez une importation de métadonnées de lignage pour DataStage for Cloud Pak for Data, vous pouvez définir des options spécifiques à cette source de données et définir l'étendue des données pour lesquelles le lignage est généré. Pour plus d'informations sur l'importation de métadonnées, voir Conception des importations de métadonnées.

Entrées externes

Vous pouvez fournir des flux DataStage en tant qu'entrées externes dans un fichier ZIP. Le dossier doit avoir la structure suivante :

  • <project_export.zip> - A DataStage project exported to a ZIP file.
  • DSParams - A file that contains the project- or environment-level parameters if applicable. Vous pouvez obtenir ce fichier dans le répertoire du projet.
  • datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
  • connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. Les définitions des connexions ODBC ne sont pas incluses dans les exportations XML DataStage et doivent être spécifiées séparément.
  • datastageComponentOverrides.csv - A file with component-lineage overrides.

Le format du fichier ZIP contenant le projet DataStage exporté Lorsque vous exportez un projet DataStage, celui-ci doit avoir la structure suivante :

  • assets - required folder.
    • .METADATA - required folder.
    • data_intg_flow.*.json - required files that contain information about flows.
    • connection.*.json - optional files that contain information about connections.
    • parameter_set.*.json - optional files that contain information about parameter sets.
    • job.*.json - optional files that contain information about jobs.
    • job_run.*.json - optional files that contain information about particular executions of the job.
    • data_intg_flow - required folder.
    • Au moins un fichier qui contient la chaîne "schemas":[{, mais qui ne se termine pas par px_executables.
  • assettypes - required folder.
  • project.json - required file. Il peut y avoir plusieurs instances de ce fichier à la suite de la décompression ZIP, ce qui est correct.


du fichier datastageParameterOverride.txt Le fichier datastageParameterOverride.txt a le contenu suivant :

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"


du fichier connection_definition/odbcConnectionDefinition.ini Le fichier connection_definition/odbcConnectionDefinition.ini a le contenu suivant. Créez une section [Shortcut_Name] distincte pour chaque connexion.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name: nom de la connexion ou du serveur de données utilisé par l'outil d'intégration de données.
  • connection_type: type de la source de données.
  • connection_string: Chaîne de connexion JDBC ou toute identification de la base de données, telle que l'ID système (SID) ou le nom d'hôte.
  • server_name: la valeur dépend du type de source de données:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase) ou Teradata: nom du serveur.
    • FTP: nom d'hôte.
    • Oracle et autres bases de données: la valeur est ignorée.
  • database_name: la valeur dépend du type de source de données:
    • Oracle: nom de la base de données globale.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase), Teradataet d'autres bases de données: nom de la base de données par défaut.
    • user_name: nom de l'utilisateur qui se connecte à la base de données.

Ajoutez une nouvelle ligne à la fin des paramètres de chaque section.


du fichier datastageComponentOverrides.csv Le fichier datastageComponentOverrides.csv a le contenu suivant :

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Le chemin d'accès à l'étape est au format Job/[Shared and Local containers optional]/Stage.

Options d'importation avancées

Analyse de l'exécution des tâches
Indique si les travaux sont analysés.
Analyser les travaux effectués depuis
Spécifie la date à partir de laquelle les exécutions sont analysées. Si la valeur est vide, toutes les séries sont analysées. Example value: 1970/01/01 00:00:00.000.
Analyser les emplois séparément
Indique si les travaux doivent être analysés séparément, même si d'autres exécutions leur sont associées.
Analyser les flux sans emplois
Spécifie si les flux sans travaux sont analysés.
Authentification des utilisateurs du proxyOracle
Vous pouvez utiliser l'authentification de l'utilisateur par proxy Oracle. Attribuez la valeur true pour remplacer les noms d'utilisateur Oracle au format \"USERNAME[SCHEMA_OWNER]\" par des noms au format \"SCHEMA_OWNER\". Dans les autres cas, la valeur est false
Fichiers de valeur
Spécifiez les noms des fichiers de valeurs à utiliser dans les jeux de paramètres, par ordre de priorité. Par exemple, DEV1,TEST,PROD.

En savoir plus

Sujet parent : Conception des importations de métadonnées

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus