IBM 'DataStage per 'Cloud Pak for Data connessione
Per accedere ai dati in DataStage for Cloud Pak for Data, è necessario creare una risorsa di connessione.
DataStage for Cloud Pak for Data è uno strumento di integrazione dei dati per la progettazione, lo sviluppo e l'esecuzione di lavori che spostano e trasformano i dati.
Creare una connessione a DataStage for Cloud Pak for Data
Per creare l'asset di connessione, sono necessari i seguenti dettagli di connessione:
- Nome host o Indirizzo IP
- Numero porta
- Credenziali: specificare nome utente e password o chiave API
- Certificato SSL (se richiesto dal server del database). Ad esempio, specificare un certificato se l'istanza di DataStage for Cloud Pak for Data non si trova nello stesso cluster del progetto in cui si desidera creare un lavoro di importazione dei metadati.
Scegliere il metodo per creare una connessione in base alla posizione in cui ci si trova nella piattaforma
In un progetto '
fare clic su Assets > New asset > Connect to a data source. Vedere Aggiunta di un collegamento a un progetto.
Nel Platform assets catalog '
fare clic su Nuova connessione. Vedere Aggiunta di connessioni alla piattaforma.
Passo successivo: Importare i metadati del lignaggio dalla connessione
Eseguire l'importazione dei metadati per importare i dati del lignaggio e vedere come i dati sono collegati nel grafico del lignaggio. Vedere Importazione di metadati.
Dove è possibile utilizzare questa connessione
È possibile utilizzare la connessione 'DataStage per 'Cloud Pak for Data nelle seguenti aree di lavoro e strumenti:
Cataloghi
- Platform assets catalog
Derivazione dati
- Metadata import (lineage)IBM Knowledge Catalog e Manta Data Lineage)
Configurazione dell'importazione dei metadati del lignaggio per DataStage for Cloud Pak for Data
Quando si crea un'importazione di metadati per la connessione a DataStage for Cloud Pak for Data, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lignaggio. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.
Per importare i metadati di lignaggio per DataStage for Cloud Pak for Data, completare i seguenti passaggi:
- Creare una definizione di origine dati. Selezionare IBM DataStage for Cloud Pak for Data come tipo di origine dati.
- Creare una connessione all'origine dati in un progetto.
- Per collegarsi a DataStage for Cloud Pak for Data, fornire un nome utente e una password.
- Per connettersi a DataStage for Cloud Pak for Data as a Service, fornire la chiave API. Se non ne avete una, dal menu di navigazione andate su Amministrazione > Accesso (IAM) > Gestisci identità > Chiavi API e create una nuova chiave API. Utilizzare il valore del token nei dettagli della connessione.
- Specificare un certificato se l'istanza di DataStage for Cloud Pak for Data non si trova nello stesso cluster del progetto in cui si desidera creare un lavoro di importazione dei metadati.
- Creare un'importazione di metadati. Ulteriori informazioni sulle opzioni specifiche dell'origine dati DataStage for Cloud Pak for Data:
- Quando si definisce un ambito, è possibile analizzare l'intera fonte di dati o utilizzare le opzioni di inclusione ed esclusione per definire i progetti e i flussi esatti che si desidera analizzare. Vedere Elenchi di inclusione ed esclusione.
- Opzionalmente, è possibile fornire un input esterno sotto forma di file .zip. Il file viene aggiunto nel campo Aggiungi input da file. Si può decidere di aggiungere un input esterno oltre all'ambito definito dei dati estratti, oppure di importare i dati solo dall'input esterno. Per aggiungere un ingresso esterno, procedere come segue:
- Preparare un file .zip come input esterno.
- Caricare il file .zip nel progetto.
- Configurare l'importazione per utilizzare solo l'ingresso esterno.
- È possibile specificare opzioni di importazione avanzate.
Elenchi di inclusione ed esclusione
È possibile includere o escludere gli asset fino al livello di flusso. Fornire database e schemi nel formato progetto/flusso. Ogni parte viene valutata come espressione regolare. Anche gli asset aggiunti successivamente nell'origine dei dati saranno inclusi o esclusi se corrispondono alle condizioni specificate negli elenchi. Valori di esempio:
myProject/
: tutti i flussi nel progetto 'myProject
.myProject3/myFlow1
: flusso 'myFlow1
dal progetto 'myProject3
.
Preparare un file .zip come input esterno
È possibile fornire i flussi DataStage come input esterni in un file .zip. La cartella deve avere la seguente struttura:
<project_export.zip>
- Un progetto DataStage esportato in un file .zip.DSParams
- Un file che contiene i parametri a livello di progetto o di ambiente, se applicabile. È possibile ottenere questo file dalla directory del progetto.datastageParameterOverride.txt
- Un file con le sovrascritture dei set di parametri, se i lavori utilizzano i set di parametri.connection_definition/odbcConnectionDefinition.ini
- Un file con le definizioni di connessione per le connessioni ODBC. Le definizioni delle connessioni ODBC non sono incluse nelle esportazioni XML di DataStage e devono essere specificate separatamente.datastageComponentOverrides.csv
- Un file con le sovrascritture dei componenti.
Il formato del file .zip con il progetto DataStage esportato
Quando si esporta un progetto DataStage, questo deve avere la seguente struttura:
assets
- cartella obbligatoria..METADATA
- cartella obbligatoria.data_intg_flow.*.json
- file obbligatori che contengono informazioni sui flussi.connection.*.json
- file opzionali che contengono informazioni sulle connessioni.parameter_set.*.json
- file opzionali che contengono informazioni sui set di parametri.job.*.json
- file opzionali che contengono informazioni sui lavori.job_run.*.json
- file opzionali che contengono informazioni su particolari esecuzioni del lavoro.data_intg_flow
- cartella obbligatoria.- Almeno un file che contenga la stringa "
"schemas":[{
, ma che non finisca con "px_executables
.
assettypes
- cartella obbligatoria.project.json
- file obbligatorio. Potrebbero esserci più istanze di questo file come risultato della decompressione ZIP, il che è corretto.
Il file 'datastageParameterOverride.txt
formato
Il file 'datastageParameterOverride.txt
ha il seguente contenuto:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Il file 'connection_definition/odbcConnectionDefinition.ini
formato
Il file 'connection_definition/odbcConnectionDefinition.ini
ha il seguente contenuto. Creare una sezione " [Shortcut_Name]
separata per ogni connessione.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Nome_scorciatoia: Il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dei dati.
- tipo_connessione: Il tipo di origine dei dati.
- stringa_di_connessione: Una stringa di connessione JDBC o qualsiasi identificazione del database, come l'ID del sistema (SID) o il nome dell'host.
- nome_server: il valore dipende dal tipo di origine dati:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase) o Teradata: Il nome del server.
- FTP: il nome dell'host.
- Oracle e altri database: Il valore viene ignorato.
- nome_database: il valore dipende dal tipo di origine dati:
- Oracle: il nome del database globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase), Teradata e altri database: Il nome del database predefinito.
- nome_utente: il nome dell'utente che accede al database.
Aggiungere una nuova riga alla fine dei parametri per ogni sezione.
Il file 'datastageComponentOverrides.csv
formato
Il file 'datastageComponentOverrides.csv
ha il seguente contenuto:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Il percorso dello stage è nel formato 'Job/[Shared and Local containers optional]/Stage
.
Caricare il file .zip nel progetto
Per utilizzare il file .zip nell'importazione dei metadati, è necessario aggiungerlo al progetto in cui si crea l'importazione dei metadati.
- Nel progetto, fare clic su Importa risorse.
- Nella sezione File locali, fare clic su Attività dati.
- Aggiungere il file .zip al progetto DataStage.
Quando si crea l'importazione dei metadati, sarà possibile selezionare questo file nella fase Aggiungi input da file.
Configurare l'importazione per utilizzare solo l'ingresso esterno
Se si desidera importare i metadati solo dall'input esterno fornito e non direttamente dall'istanza DataStage for Cloud Pak for Data collegata, completare i seguenti passaggi:
- Aggiungete il file .zip nella sezione Aggiungi input da file e fate clic su Avanti.
- Espandere l'elenco delle fasi di importazione di Lineage e disabilitare la fase di estrazione delle trasformazioni.
Opzioni di importazione avanzate
- Analizzare le esecuzioni dei processi
- Specifica se le esecuzioni dei lavori vengono analizzate.
- Analizzare i processi eseguiti da
- Specifica la data dopo la quale le corse vengono analizzate. Se il valore è vuoto, vengono analizzate tutte le corse. Valore di esempio: "
1970/01/01 00:00:00.000
. - Analizza i processi separatamente
- Specifica se analizzare i lavori separatamente, anche se ad essi sono associate altre esecuzioni.
- Analizzare i flussi senza processi
- Specifica se i flussi senza lavori vengono analizzati.
- Autenticazione utente proxy Oracle
- È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su '
true
per cambiare i nomi utente Oracle in formato '\"USERNAME[SCHEMA_OWNER]\"
in formato '\"SCHEMA_OWNER\"
. In altri casi, impostare il valore su 'false
. - File di valore
- Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio,
DEV1,TEST,PROD
.
Ulteriori informazioni
Argomento principale: Connessioni supportate