L'intégration de données utilise des processus techniques et commerciaux pour combiner des données provenant de différentes sources et créer des informations significatives et utiles pour votre entreprise. Les outils d'intégration de données peuvent utiliser des modèles d'extraction, de transformation et de chargement (ETL) pour transformer et organiser les données en fonction des besoins de l'entreprise. Ces travaux ETL déplacent les données des systèmes sources vers les systèmes cibles.
Vous pouvez importer des métadonnées de lignage depuis InfoSphere DataStage. Vous ne pouvez pas importer d'actifs à partir de cette source.
InfoSphere DataStage
Lorsque vous créez une importation de métadonnées de lignage pour InfoSphere DataStage, vous pouvez définir des options spécifiques à cette source de données et définir l'étendue des données pour lesquelles le lignage est généré. Pour plus d'informations sur l'importation de métadonnées, voir Conception des importations de métadonnées.
Entrées externes
Vous pouvez fournir des actifs InfoSphere DataStage tels que des travaux, des étapes ou des fichiers de métadonnées opérationnelles en tant qu'entrées externes dans un fichier .zip. Le dossier doit avoir la structure suivante :
<job_name.xml>
- Les travaux DataStage parallèles que vous souhaitez analyser et les jeux de paramètres que vous utilisez dans ces travaux sous la forme d'un fichier XML, exporté à partir du client concepteur.omd_files
- Un dossier pour les fichiers de métadonnées opérationnelles (OMD).<omd_file_name>
- Fichiers de métadonnées opérationnelles collectés pendant l'exécution des tâches pour résoudre tout type de paramètre dans les tâches.
sql_files
- Dossier contenant tous les fichiers SQL.<sql_file_name>
- Fichier contenant des requêtes SQL.
DSParams
- Fichier contenant les paramètres au niveau du projet ou de l'environnement, le cas échéant. Vous pouvez obtenir ce fichier dans le répertoire du projet.datastageParameterOverride.txt
- Fichier contenant les dérogations aux jeux de paramètres si vos travaux utilisent des jeux de paramètres.connection_definition/odbcConnectionDefinition.ini
- Fichier contenant les définitions de connexion pour les connexions ODBC. Les définitions des connexions ODBC ne sont pas incluses dans les exportations XML de DataStage et doivent être spécifiées séparément.datastageComponentOverrides.csv
- Un fichier avec des dérogations de lignage de composants.
Le format de fichier " datastageParameterOverride.txt
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Le format de fichier " connection_definition/odbcConnectionDefinition.ini
"
Le fichier " connection_definition/odbcConnectionDefinition.ini
a le contenu suivant. Créez une section " [Shortcut_Name]
distincte pour chaque connexion.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: Le nom de la connexion ou du serveur de données utilisé par l'outil d'intégration de données.
- connection_type: Le type de source de données.
- chaîne_de_connexion: Une chaîne de connexion JDBC ou toute identification de la base de données telle que l'ID système (SID) ou le nom d'hôte.
- server_name: la valeur dépend du type de source de données :
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase) ou Teradata: Le nom du serveur.
- FTP : le nom d'hôte.
- Oracle et autres bases de données : La valeur est ignorée.
- database_name: la valeur dépend du type de source de données :
- Oracle: nom de la base de données globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase), Teradata et d'autres bases de données : Le nom de la base de données par défaut.
- user_name: le nom de l'utilisateur qui se connecte à la base de données.
Ajouter une nouvelle ligne à la fin des paramètres pour chaque section.
Le format de fichier " datastageComponentOverrides.csv
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Le chemin d'accès à l'étape est au format " Job/[Shared and Local containers optional]/Stage
.
Options d'importation avancées
- Authentification de l'utilisateur du proxy Oracle
- Vous pouvez utiliser l'authentification de l'utilisateur par proxy Oracle. Attribuez la valeur "
true
pour remplacer les noms d'utilisateur Oracle au format "\"USERNAME[SCHEMA_OWNER]\"
par des noms au format "\"SCHEMA_OWNER\"
Dans les autres cas, la valeur est "false
. - Fichiers de valeur
- Spécifiez les noms des fichiers de valeurs à utiliser dans les jeux de paramètres, par ordre de priorité. Par exemple,
DEV1,TEST,PROD
.
En savoir plus
Sujet parent : Conception des importations de métadonnées