IBM " DataStage pour " Cloud Pak for Data connexion
Pour accéder à vos données dans DataStage for Cloud Pak for Data, créez un actif de connexion.
DataStage for Cloud Pak for Data est un outil d'intégration de données pour concevoir, développer et exécuter des tâches qui déplacent et transforment les données.
Créer une connexion à DataStage pour Cloud Pak for Data
Pour créer le bien de connexion, vous avez besoin des détails de connexion suivants :
- Nom d'hôte ou adresse IP
- Numéro de port
- Credentials : spécifier le nom d'utilisateur et le mot de passe ou la clé API
- Certificat SSL (si le serveur de base de données l'exige). Par exemple, spécifiez un certificat si votre instance DataStage for Cloud Pak for Data ne se trouve pas sur le même cluster que le projet dans lequel vous souhaitez créer une tâche d'importation de métadonnées.
Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.
Dans un projet "
, cliquez sur Assets > New asset > Connect to a data source. Voir Ajout d'une connexion à un projet.
Dans le Platform assets catalog "
, cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.
Étape suivante : Importer les métadonnées de lignage à partir de la connexion
Lancer l'importation de métadonnées pour importer des données de lignée et voir comment les données sont connectées sur le graphique de lignée. Voir Importation de métadonnées.
Où vous pouvez utiliser cette connexion
Vous pouvez utiliser la connexion " DataStage pour " Cloud Pak for Data dans les espaces de travail et les outils suivants :
Catalogs
- Platform assets catalog
Lignage des données
- Metadata import (lineage)IBM Knowledge Catalog et Manta Data Lineage)
Configuration de l'importation de métadonnées de lignage pour DataStage for Cloud Pak for Data
Lorsque vous créez une importation de métadonnées pour la connexion DataStage for Cloud Pak for Data, vous pouvez définir des options spécifiques à cette source de données et définir l'étendue des données pour lesquelles le lignage est généré. Pour plus d'informations sur l'importation de métadonnées, voir Conception des importations de métadonnées.
Pour importer des métadonnées de lignage pour DataStage for Cloud Pak for Data, procédez comme suit :
- Créer une définition de la source de données. Sélectionnez IBM DataStage for Cloud Pak for Data comme type de source de données.
- Créer une connexion à la source de données dans un projet.
- Pour vous connecter à DataStage for Cloud Pak for Data, indiquez un nom d'utilisateur et un mot de passe.
- Pour vous connecter à DataStage for Cloud Pak for Data as a Service, indiquez la clé API. Si vous n'en avez pas, dans le menu de navigation, allez dans Administration > Accès (IAM) > Gérer les identités > Clés API et créez une nouvelle clé API. Utiliser la valeur du jeton dans les détails de la connexion.
- Spécifiez un certificat si votre instance DataStage for Cloud Pak for Data ne se trouve pas sur le même cluster que le projet dans lequel vous souhaitez créer une tâche d'importation de métadonnées.
- Créer une importation de métadonnées. En savoir plus sur les options spécifiques à la source de données DataStage for Cloud Pak for Data
- Lorsque vous définissez un périmètre, vous pouvez analyser l'ensemble de la source de données ou utiliser les options d'inclusion et d'exclusion pour définir les projets et les flux exacts que vous souhaitez analyser. Voir Listes d'inclusion et d'exclusion.
- En option, vous pouvez fournir des données externes sous la forme d'un fichier .zip. Vous ajoutez ce fichier dans le champ Ajouter des entrées à partir d'un fichier. Vous pouvez décider d'ajouter des données externes en plus de l'étendue définie des données extraites, ou vous pouvez importer des données à partir des données externes uniquement. Pour ajouter une entrée externe, procédez comme suit :
- Préparez un fichier .zip comme entrée externe.
- Téléchargez le fichier .zip dans le projet.
- Configurer l'importation pour qu'elle n'utilise que l'entrée externe.
- Vous pouvez également spécifier des options d'importation avancées.
Listes d'inclusion et d'exclusion
Vous pouvez inclure ou exclure des actifs jusqu'au niveau du flux. Fournir des bases de données et des schémas au format projet/flux. Chaque partie est évaluée comme une expression régulière. Les actifs ajoutés ultérieurement dans la source de données seront également inclus ou exclus s'ils répondent aux conditions spécifiées dans les listes. Exemples de valeurs :
myProject/
: tous les flux du projet "myProject
myProject3/myFlow1
: 'myFlow1
flux du projet 'myProject3
.
Préparer un fichier .zip comme entrée externe
Vous pouvez fournir des flux DataStage en tant qu'entrées externes dans un fichier .zip. Le dossier doit avoir la structure suivante :
<project_export.zip>
- Un projet DataStage exporté dans un fichier .zip.DSParams
- Fichier contenant les paramètres au niveau du projet ou de l'environnement, le cas échéant. Vous pouvez obtenir ce fichier dans le répertoire du projet.datastageParameterOverride.txt
- Fichier contenant les dérogations aux jeux de paramètres si vos travaux utilisent des jeux de paramètres.connection_definition/odbcConnectionDefinition.ini
- Fichier contenant les définitions de connexion pour les connexions ODBC. Les définitions des connexions ODBC ne sont pas incluses dans les exportations XML de DataStage et doivent être spécifiées séparément.datastageComponentOverrides.csv
- Fichier contenant des dérogations à la lignée des composants.
Le format du fichier .zip avec le projet DataStage exporté
Lorsque vous exportez un projet DataStage, il doit avoir la structure suivante :
assets
- dossier obligatoire..METADATA
- dossier obligatoire.data_intg_flow.*.json
- Fichiers obligatoires contenant des informations sur les flux.connection.*.json
- Fichiers facultatifs contenant des informations sur les connexions.parameter_set.*.json
- Fichiers facultatifs contenant des informations sur les jeux de paramètres.job.*.json
- Fichiers facultatifs contenant des informations sur les emplois.job_run.*.json
- fichiers facultatifs contenant des informations sur des exécutions particulières du travail.data_intg_flow
- dossier obligatoire.- Au moins un fichier qui contient la chaîne "
"schemas":[{
, mais qui ne se termine pas par "px_executables
.
assettypes
- dossier obligatoire.project.json
- fichier requis. Il peut y avoir plusieurs instances de ce fichier à la suite de la décompression ZIP, ce qui est correct.
Le format de fichier " datastageParameterOverride.txt
"
Le fichier " datastageParameterOverride.txt
a le contenu suivant :
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Le format de fichier " connection_definition/odbcConnectionDefinition.ini
"
Le fichier " connection_definition/odbcConnectionDefinition.ini
a le contenu suivant. Créez une section " [Shortcut_Name]
distincte pour chaque connexion.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: Le nom de la connexion ou du serveur de données utilisé par l'outil d'intégration de données.
- connection_type: Le type de source de données.
- chaîne_de_connexion: Une chaîne de connexion JDBC ou toute identification de la base de données telle que l'ID système (SID) ou le nom d'hôte.
- server_name: la valeur dépend du type de source de données :
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase) ou Teradata: Le nom du serveur.
- FTP : le nom d'hôte.
- Oracle et autres bases de données : La valeur est ignorée.
- database_name: la valeur dépend du type de source de données :
- Oracle: nom de la base de données globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anciennement Sybase), Teradata et d'autres bases de données : Le nom de la base de données par défaut.
- user_name: Le nom de l'utilisateur qui se connecte à la base de données.
Ajouter une nouvelle ligne à la fin des paramètres pour chaque section.
Le format de fichier " datastageComponentOverrides.csv
"
Le fichier " datastageComponentOverrides.csv
a le contenu suivant :
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Le chemin d'accès à l'étape est au format " Job/[Shared and Local containers optional]/Stage
.
Télécharger le fichier .zip dans le projet
Pour utiliser le fichier .zip dans l'importation de métadonnées, vous devez l'ajouter au projet dans lequel vous créez l'importation de métadonnées.
- Dans le projet, cliquez sur Importer des actifs.
- Dans la section Fichier local, cliquez sur Actif de données.
- Ajoutez le fichier .zip au projet DataStage.
Lorsque vous créez l'importation de métadonnées, vous pouvez sélectionner ce fichier à l'étape Ajouter des entrées à partir d'un fichier.
Configurer l'importation pour qu'elle n'utilise que l'entrée externe
Si vous souhaitez importer des métadonnées uniquement à partir de l'entrée externe fournie, et non directement à partir de l'instance DataStage for Cloud Pak for Data connectée, procédez comme suit :
- Ajoutez le fichier .zip dans la section Add inputs from file et cliquez sur Next.
- Développez la liste des phases d'importation de lignage et désactivez la phase d'extraction des transformations.
Options d'importation avancées
- Analyser les exécutions de travail
- Indique si les exécutions de travaux sont analysées.
- Analyser les exécutions de travail depuis
- Spécifie la date à partir de laquelle les exécutions sont analysées. Si la valeur est vide, toutes les séries sont analysées. Exemple de valeur : "
1970/01/01 00:00:00.000
. - Analyser les travaux séparément
- Indique si les travaux doivent être analysés séparément, même si d'autres exécutions leur sont associées.
- Analyser les flux sans les travaux
- Spécifie si les flux sans travaux sont analysés.
- Authentification de l'utilisateur du proxy Oracle
- Vous pouvez utiliser l'authentification de l'utilisateur par proxy Oracle. Attribuez la valeur "
true
pour remplacer les noms d'utilisateur Oracle au format "\"USERNAME[SCHEMA_OWNER]\"
par des noms au format "\"SCHEMA_OWNER\"
Dans les autres cas, la valeur est "false
. - Fichiers de valeur
- Spécifiez les noms des fichiers de valeurs à utiliser dans les jeux de paramètres, par ordre de priorité. Par exemple,
DEV1,TEST,PROD
.
En savoir plus
Rubrique parent : Connexions prises en charge