IBM DataStage per la configurazione del lignaggio Cloud Pak for Data
Per importare i metadati del lignaggio da IBM DataStage per Cloud Pak for Data, creare una connessione, una definizione dell'origine dati e un lavoro di importazione dei metadati.
Per importare i metadati di lignaggio per IBM DataStage per Cloud Pak for Data, eseguire i seguenti passaggi:
- Creare una definizione di origine dati.
- Creare una connessione all'origine dati in un progetto.
- Creare un'importazione di metadati.
Creazione di una definizione di origine dati
Creare una definizione di origine dati. Selezionare IBM DataStage per Cloud Pak for Data come tipo di origine dati.
Creare una connessione a DataStage per Cloud Pak for Data
Creare una connessione all'origine dati in un progetto. Per i dettagli sul collegamento, vedere DataStage per il collegamento a Cloud Pak for Data.
- Per collegarsi a DataStage per Cloud Pak for Data, fornire un nome utente e una password.
- Per collegarsi a DataStage per Cloud Pak for Data as a Service, fornire la chiave API. Se non ne avete una, dal menu di navigazione andate su Amministrazione > Accesso (IAM) > Gestisci identità > Chiavi API e create una nuova chiave API. Utilizzare il valore del token nei dettagli della connessione.
- Specificare un certificato se l'istanza di DataStage for Cloud Pak for Data non si trova nello stesso cluster del progetto in cui si desidera creare un lavoro di importazione dei metadati.
Creare un'importazione di metadati
Creare un'importazione di metadati. Ulteriori informazioni sulle opzioni specifiche di DataStage per l'origine dati Cloud Pak for Data :
Elenchi di inclusione ed esclusione
È possibile includere o escludere gli asset fino al livello di flusso. Fornire database e schemi nel formato progetto/flusso. Ogni parte viene valutata come espressione regolare. Anche gli asset aggiunti successivamente nell'origine dei dati saranno inclusi o esclusi se corrispondono alle condizioni specificate negli elenchi. Valori di esempio:
myProject/
: tutti i flussi nel progettomyProject
.myProject3/myFlow1
: flussomyFlow1
dal progettomyProject3
.
Input esterni
Opzionalmente, è possibile fornire un input esterno sotto forma di file.zip. Il file viene aggiunto nel campo Aggiungi input da file. Si può decidere di aggiungere un input esterno oltre all'ambito definito dei dati estratti, oppure di importare i dati solo dall'input esterno. Per aggiungere un ingresso esterno, procedere come segue:
- Preparare un file.zip come input esterno.
- Caricare il file.zip nel progetto.
- Configurare l'importazione per utilizzare solo l'ingresso esterno.
Preparare un file.zip come input esterno
È possibile fornire i flussi DataStage come input esterni in un file.zip. La cartella deve avere la seguente struttura:
<project_export.zip>
- Un progetto DataStage esportato in un file.zip.DSParams
- Un file che contiene i parametri a livello di progetto o di ambiente, se applicabile. È possibile ottenere questo file dalla directory del progetto.datastageParameterOverride.txt
- Un file con le sovrascritture dei parametri, se i lavori utilizzano i set di parametri.connection_definition/odbcConnectionDefinition.ini
- Un file con le definizioni di connessione per le connessioni di ODBC. Le definizioni delle connessioni di ODBC non sono incluse nelle esportazioni XML di DataStage e devono essere specificate separatamente.datastageComponentOverrides.csv
- Un file con le sovrascritture del lignaggio dei componenti.
Il formato del file.zip con il progetto DataStage esportato Quando si esporta un progetto DataStage, questo deve avere la seguente struttura:
assets
- cartella richiesta..METADATA
- cartella richiesta.data_intg_flow.*.json
- file necessari che contengono informazioni sui flussi.connection.*.json
- file opzionali che contengono informazioni sulle connessioni.parameter_set.*.json
- file opzionali che contengono informazioni sui set di parametri.job.*.json
- file opzionali che contengono informazioni sui lavori.job_run.*.json
-file opzionali che contengono informazioni su particolari esecuzioni del lavoro.data_intg_flow
- cartella richiesta.- Almeno un file che contenga la stringa
"schemas":[{
, ma che non finisca inpx_executables
.
assettypes
- cartella richiesta.project.json
- file richiesto. Potrebbero esserci più istanze di questo file come risultato della decompressione ZIP, il che è corretto.
Il formato del file datastageParameterOverride.txt
Il file datastageParameterOverride.txt
ha il seguente contenuto:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Il formato del file connection_definition/odbcConnectionDefinition.ini
Il file connection_definition/odbcConnectionDefinition.ini
ha il seguente contenuto. Creare una sezione separata di [Shortcut_Name]
per ogni connessione.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Nome_scorciatoia : Il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dei dati.
- tipo_connessione : Il tipo di origine dei dati.
- stringa_di_connessione : Una stringa di connessione JDBC o qualsiasi identificazione del database, come l'ID del sistema (SID) o il nome dell'host.
- nome_server : il valore dipende dal tipo di origine dati:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase ), o Teradata : Il nome del server.
- FTP: il nome dell'host.
- Oracle e altri database: Il valore viene ignorato.
- nome_database : il valore dipende dal tipo di origine dati:
- Oracle : Il nome del database globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase ), Teradata, e altri database: Il nome del database predefinito.
- nome_utente : il nome dell'utente che accede al database.
Aggiungere una nuova riga alla fine dei parametri per ogni sezione.
Il formato del file datastageComponentOverrides.csv
Il file datastageComponentOverrides.csv
ha il seguente contenuto:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Il percorso dello stage è nel formato Job/[Shared and Local containers optional]/Stage
.
Caricare il file.zip nel progetto
Per utilizzare il file.zip nell'importazione dei metadati, è necessario aggiungerlo al progetto in cui si crea l'importazione dei metadati.
- Nel progetto, fare clic su Importa risorse.
- Nella sezione File locali, fare clic su Attività dati.
- Aggiungete il file.zip al progetto DataStage.
Quando si crea l'importazione dei metadati, sarà possibile selezionare questo file nella fase Aggiungi input da file.
Configurare l'importazione per utilizzare solo l'ingresso esterno
Se si desidera importare i metadati solo dall'ingresso esterno fornito e non direttamente dall'istanza collegata di DataStage for Cloud Pak for Data, completare i seguenti passaggi:
- Aggiungete il file.zip nella sezione Aggiungi input da file e fate clic su Avanti.
- Espandere l'elenco delle fasi di importazione di Lineage e disabilitare la fase di estrazione delle trasformazioni.
Opzioni di importazione avanzate
- Analizzare le esecuzioni dei processi
- Specifica se le esecuzioni dei lavori vengono analizzate.
- Analizzare i processi eseguiti da
- Specifica la data dopo la quale le corse vengono analizzate. Se il valore è vuoto, vengono analizzate tutte le corse. Valore di esempio:
1970/01/01 00:00:00.000
. - Analizza i processi separatamente
- Specifica se analizzare i lavori separatamente, anche se ad essi sono associate altre esecuzioni.
- Analizzare i flussi senza processi
- Specifica se i flussi senza lavori vengono analizzati.
- Autenticazione utente proxy Oracle
- È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su
true
per cambiare i nomi utente di Oracle in formato\"USERNAME[SCHEMA_OWNER]\"
in formato\"SCHEMA_OWNER\"
. In altri casi, impostare il valore sufalse
. - File di valore
- Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio,
DEV1,TEST,PROD
.
Ulteriori informazioni
Argomento principale: Connettori supportati per l'importazione del lignaggio