Configurazione dell'importazione dei metadati per le risorse di integrazione dei dati
L'integrazione dei dati utilizza processi tecnici e di business per combinare i dati provenienti da diverse fonti e creare informazioni significative e preziose per l'azienda. Gli strumenti di integrazione dei dati possono utilizzare modelli ETL (extract, transform, load) per trasformare e organizzare i dati in base alle esigenze di business. Tali lavori ETL spostano i dati dai sistemi di origine ai sistemi di destinazione.
È possibile importare metadati di lineage da InfoSphere DataStage e DataStage for Cloud Pak for Data. Non è possibile importare risorse da queste fonti.
InfoSphere DataStage
Quando si crea un'importazione di metadati di lineage per InfoSphere DataStage, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.
Input esterni
È possibile fornire risorse di InfoSphere DataStage come lavori, fasi o file di metadati operativi come input esterni in un file ZIP. La cartella deve avere la seguente struttura:
<job_name.xml>
- The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.omd_files
- A folder for operational metadata (OMD) files.<omd_file_name>
- Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
sql_files
- A folder that contains all SQL files.<sql_file_name>
- A file with SQL queries.
DSParams
- A file that contains the project- or environment-level parameters if applicable. È possibile ottenere questo file dalla directory del progetto.datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. Le definizioni delle connessioni ODBC non vengono incluse nelle esportazioni XML DataStage e devono essere specificate separatamente.datastageComponentOverrides.csv
- A file with component-lineage overrides.
Il formato di file datastageParameterOverride.txt
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Il formato di file connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini
file has the following content. Creare una sezione [Shortcut_Name]
separata per ogni connessione.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dati.
- tipo_connessione: il tipo di origine dati.
- connection_string: una stringa di connessione JDBC o qualsiasi identificazione del database, ad esempio l'ID sistema (SID) o il nome host.
- nome_server: il valore dipende dal tipo di origine dati:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase) o Teradata: il nome del server.
- FTP: il nome host.
- Oracle e altri database: il valore viene ignorato.
- nome_database: il valore dipende dal tipo di origine dati:
- Oracle: il nome del database globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase), Teradatae altri database: il nome del database predefinito.
- user_name: il nome dell'utente che accede al database.
Aggiungere una nuova riga alla fine dei parametri per ogni sezione.
Il formato di file datastageComponentOverrides.csv
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Il percorso dello stage è nel formato Job/[Shared and Local containers optional]/Stage
.
Opzioni di importazione avanzate
- Autenticazione utente proxyOracle
- È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su
true
per cambiare i nomi utente Oracle in formato\"USERNAME[SCHEMA_OWNER]\"
in formato\"SCHEMA_OWNER\"
. In altri casi, impostare il valore sufalse
. - File di valore
- Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio,
DEV1,TEST,PROD
.
DataStage per Cloud Pak for Data
Quando si crea un'importazione di metadati di lineage per DataStage for Cloud Pak for Data, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.
Input esterni
È possibile fornire i flussi di DataStage come input esterni in un file ZIP. La cartella deve avere la seguente struttura:
<project_export.zip>
- A DataStage project exported to a ZIP file.DSParams
- A file that contains the project- or environment-level parameters if applicable. È possibile ottenere questo file dalla directory del progetto.datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. Le definizioni delle connessioni ODBC non vengono incluse nelle esportazioni XML DataStage e devono essere specificate separatamente.datastageComponentOverrides.csv
- A file with component-lineage overrides.
Il formato del file ZIP con il progetto DataStage esportato Quando si esporta un progetto DataStage, questo deve avere la seguente struttura:
assets
- required folder..METADATA
- required folder.data_intg_flow.*.json
- required files that contain information about flows.connection.*.json
- optional files that contain information about connections.parameter_set.*.json
- optional files that contain information about parameter sets.job.*.json
- optional files that contain information about jobs.job_run.*.json
- optional files that contain information about particular executions of the job.data_intg_flow
- required folder.- Almeno un file che contenga la stringa
"schemas":[{
, ma che non finisca inpx_executables
.
assettypes
- required folder.project.json
- required file. Potrebbero esserci più istanze di questo file come risultato della decompressione ZIP, il che è corretto.
Il formato di file datastageParameterOverride.txt
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Il formato di file connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini
file has the following content. Creare una sezione [Shortcut_Name]
separata per ogni connessione.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dati.
- tipo_connessione: il tipo di origine dati.
- connection_string: una stringa di connessione JDBC o qualsiasi identificazione del database, ad esempio l'ID sistema (SID) o il nome host.
- nome_server: il valore dipende dal tipo di origine dati:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase) o Teradata: il nome del server.
- FTP: il nome host.
- Oracle e altri database: il valore viene ignorato.
- nome_database: il valore dipende dal tipo di origine dati:
- Oracle: il nome del database globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase), Teradatae altri database: il nome del database predefinito.
- user_name: il nome dell'utente che accede al database.
Aggiungere una nuova riga alla fine dei parametri per ogni sezione.
Il formato di file datastageComponentOverrides.csv
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Il percorso dello stage è nel formato Job/[Shared and Local containers optional]/Stage
.
Opzioni di importazione avanzate
- Analizzare le esecuzioni dei lavori
- Specifica se le esecuzioni dei lavori vengono analizzate.
- Analizzare i lavori eseguiti da
- Specifica la data dopo la quale le corse vengono analizzate. Se il valore è vuoto, vengono analizzate tutte le corse. Example value:
1970/01/01 00:00:00.000
. - Analizzare i lavori separatamente
- Specifica se analizzare i lavori separatamente, anche se ad essi sono associate altre esecuzioni.
- Analizzare i flussi senza lavori
- Specifica se i flussi senza lavori vengono analizzati.
- Autenticazione utente proxyOracle
- È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su
true
per cambiare i nomi utente Oracle in formato\"USERNAME[SCHEMA_OWNER]\"
in formato\"SCHEMA_OWNER\"
. In altri casi, impostare il valore sufalse
. - File di valore
- Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio,
DEV1,TEST,PROD
.
Ulteriori informazioni
Argomento principale: Progettazione delle importazioni di metadati