0 / 0

IBM DataStage per la configurazione del lignaggio Cloud Pak for Data

Ultimo aggiornamento: 15 apr 2025
IBM DataStage per la configurazione del lignaggio Cloud Pak for Data

Per importare i metadati del lignaggio da IBM DataStage per Cloud Pak for Data, creare una connessione, una definizione dell'origine dati e un lavoro di importazione dei metadati.

Per importare i metadati di lignaggio per IBM DataStage per Cloud Pak for Data, eseguire i seguenti passaggi:

  1. Creare una definizione di origine dati.
  2. Creare una connessione all'origine dati in un progetto.
  3. Creare un'importazione di metadati.

Creazione di una definizione di origine dati

Creare una definizione di origine dati. Selezionare IBM DataStage per Cloud Pak for Data come tipo di origine dati.

Creare una connessione a DataStage per Cloud Pak for Data

Creare una connessione all'origine dati in un progetto. Per i dettagli sul collegamento, vedere DataStage per il collegamento a Cloud Pak for Data.

  • Per collegarsi a DataStage per Cloud Pak for Data, fornire un nome utente e una password.
  • Per collegarsi a DataStage per Cloud Pak for Data as a Service, fornire la chiave API. Se non ne avete una, dal menu di navigazione andate su Amministrazione > Accesso (IAM) > Gestisci identità > Chiavi API e create una nuova chiave API. Utilizzare il valore del token nei dettagli della connessione.
  • Specificare un certificato se l'istanza di DataStage for Cloud Pak for Data non si trova nello stesso cluster del progetto in cui si desidera creare un lavoro di importazione dei metadati.

Creare un'importazione di metadati

Creare un'importazione di metadati. Ulteriori informazioni sulle opzioni specifiche di DataStage per l'origine dati Cloud Pak for Data :

Elenchi di inclusione ed esclusione

È possibile includere o escludere gli asset fino al livello di flusso. Fornire database e schemi nel formato progetto/flusso. Ogni parte viene valutata come espressione regolare. Anche gli asset aggiunti successivamente nell'origine dei dati saranno inclusi o esclusi se corrispondono alle condizioni specificate negli elenchi. Valori di esempio:

  • myProject/: tutti i flussi nel progetto myProject .
  • myProject3/myFlow1: flusso myFlow1 dal progetto myProject3 .

Input esterni

Opzionalmente, è possibile fornire un input esterno sotto forma di file.zip. Il file viene aggiunto nel campo Aggiungi input da file. Si può decidere di aggiungere un input esterno oltre all'ambito definito dei dati estratti, oppure di importare i dati solo dall'input esterno. Per aggiungere un ingresso esterno, procedere come segue:

  1. Preparare un file.zip come input esterno.
  2. Caricare il file.zip nel progetto.
  3. Configurare l'importazione per utilizzare solo l'ingresso esterno.

Preparare un file.zip come input esterno

È possibile fornire i flussi DataStage come input esterni in un file.zip. La cartella deve avere la seguente struttura:

  • <project_export.zip> - Un progetto DataStage esportato in un file.zip.
  • DSParams - Un file che contiene i parametri a livello di progetto o di ambiente, se applicabile. È possibile ottenere questo file dalla directory del progetto.
  • datastageParameterOverride.txt - Un file con le sovrascritture dei parametri, se i lavori utilizzano i set di parametri.
  • connection_definition/odbcConnectionDefinition.ini - Un file con le definizioni di connessione per le connessioni di ODBC. Le definizioni delle connessioni di ODBC non sono incluse nelle esportazioni XML di DataStage e devono essere specificate separatamente.
  • datastageComponentOverrides.csv - Un file con le sovrascritture del lignaggio dei componenti.
Nota: anche quando si desidera utilizzare solo un progetto in un file.zip, questo file.zip del progetto deve essere compresso in un altro file.zip per il caricamento nel progetto.

Il formato del file.zip con il progetto DataStage esportato Quando si esporta un progetto DataStage, questo deve avere la seguente struttura:

  • assets - cartella richiesta.
    • .METADATA - cartella richiesta.
    • data_intg_flow.*.json - file necessari che contengono informazioni sui flussi.
    • connection.*.json - file opzionali che contengono informazioni sulle connessioni.
    • parameter_set.*.json - file opzionali che contengono informazioni sui set di parametri.
    • job.*.json - file opzionali che contengono informazioni sui lavori.
    • job_run.*.json -file opzionali che contengono informazioni su particolari esecuzioni del lavoro.
    • data_intg_flow - cartella richiesta.
    • Almeno un file che contenga la stringa "schemas":[{, ma che non finisca in px_executables.
  • assettypes - cartella richiesta.
  • project.json - file richiesto. Potrebbero esserci più istanze di questo file come risultato della decompressione ZIP, il che è corretto.

Il formato del file datastageParameterOverride.txt Il file datastageParameterOverride.txt ha il seguente contenuto:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

Il formato del file connection_definition/odbcConnectionDefinition.ini Il file connection_definition/odbcConnectionDefinition.ini ha il seguente contenuto. Creare una sezione separata di [Shortcut_Name] per ogni connessione.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Nome_scorciatoia : Il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dei dati.
  • tipo_connessione : Il tipo di origine dei dati.
  • stringa_di_connessione : Una stringa di connessione JDBC o qualsiasi identificazione del database, come l'ID del sistema (SID) o il nome dell'host.
  • nome_server : il valore dipende dal tipo di origine dati:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase ), o Teradata : Il nome del server.
    • FTP: il nome dell'host.
    • Oracle e altri database: Il valore viene ignorato.
  • nome_database : il valore dipende dal tipo di origine dati:
    • Oracle : Il nome del database globale.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase ), Teradata, e altri database: Il nome del database predefinito.
    • nome_utente : il nome dell'utente che accede al database.

Aggiungere una nuova riga alla fine dei parametri per ogni sezione.

Il formato del file datastageComponentOverrides.csv Il file datastageComponentOverrides.csv ha il seguente contenuto:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Il percorso dello stage è nel formato Job/[Shared and Local containers optional]/Stage.

Caricare il file.zip nel progetto

Per utilizzare il file.zip nell'importazione dei metadati, è necessario aggiungerlo al progetto in cui si crea l'importazione dei metadati.

  1. Nel progetto, fare clic su Importa risorse.
  2. Nella sezione File locali, fare clic su Attività dati.
  3. Aggiungete il file.zip al progetto DataStage.

Quando si crea l'importazione dei metadati, sarà possibile selezionare questo file nella fase Aggiungi input da file.

Configurare l'importazione per utilizzare solo l'ingresso esterno

Se si desidera importare i metadati solo dall'ingresso esterno fornito e non direttamente dall'istanza collegata di DataStage for Cloud Pak for Data, completare i seguenti passaggi:

  1. Aggiungete il file.zip nella sezione Aggiungi input da file e fate clic su Avanti.
  2. Espandere l'elenco delle fasi di importazione di Lineage e disabilitare la fase di estrazione delle trasformazioni.

Opzioni di importazione avanzate

Analizzare le esecuzioni dei processi
Specifica se le esecuzioni dei lavori vengono analizzate.
Analizzare i processi eseguiti da
Specifica la data dopo la quale le corse vengono analizzate. Se il valore è vuoto, vengono analizzate tutte le corse. Valore di esempio: 1970/01/01 00:00:00.000.
Analizza i processi separatamente
Specifica se analizzare i lavori separatamente, anche se ad essi sono associate altre esecuzioni.
Analizzare i flussi senza processi
Specifica se i flussi senza lavori vengono analizzati.
Autenticazione utente proxy Oracle
È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su true per cambiare i nomi utente di Oracle in formato \"USERNAME[SCHEMA_OWNER]\" in formato \"SCHEMA_OWNER\" . In altri casi, impostare il valore su false.
File di valore
Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio, DEV1,TEST,PROD.

Ulteriori informazioni

Argomento principale: Connettori supportati per l'importazione del lignaggio