L'integrazione dei dati utilizza processi tecnici e aziendali per combinare dati provenienti da fonti diverse e creare informazioni significative e di valore per l'azienda. Gli strumenti di integrazione dei dati possono utilizzare modelli di estrazione, trasformazione e caricamento (ETL) per trasformare e organizzare i dati in base alle esigenze aziendali. Questi lavori ETL spostano i dati dai sistemi di origine a quelli di destinazione.
È possibile importare metadati di lignaggio da InfoSphere DataStage. Non è possibile importare risorse da questa fonte.
InfoSphere DataStage
Quando si crea un'importazione di metadati di lineage per InfoSphere DataStage, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.
Input esterni
È possibile fornire risorse di InfoSphere DataStage come lavori, fasi o file di metadati operativi come input esterni in un file .zip. La cartella deve avere la seguente struttura:
<job_name.xml>
- I lavori DataStage paralleli che si desidera analizzare e i set di parametri utilizzati in tali lavori come un unico file XML, esportato dal client di progettazione.omd_files
- Una cartella per i file dei metadati operativi (OMD).<omd_file_name>
- File di metadati operativi che vengono raccolti durante l'esecuzione dei lavori per risolvere qualsiasi tipo di parametro nei lavori.
sql_files
- Una cartella che contiene tutti i file SQL.<sql_file_name>
- Un file con le query SQL.
DSParams
- Un file che contiene i parametri a livello di progetto o di ambiente, se applicabile. È possibile ottenere questo file dalla directory del progetto.datastageParameterOverride.txt
- Un file con le sovrascritture dei set di parametri, se i lavori utilizzano i set di parametri.connection_definition/odbcConnectionDefinition.ini
- Un file con le definizioni di connessione per le connessioni ODBC. Le definizioni delle connessioni ODBC non sono incluse nelle esportazioni XML di DataStage e devono essere specificate separatamente.datastageComponentOverrides.csv
- Un file con le sovrascritture dei componenti.
Il file 'datastageParameterOverride.txt
formato
Il file 'datastageParameterOverride.txt
ha il seguente contenuto:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Il file 'connection_definition/odbcConnectionDefinition.ini
formato
Il file 'connection_definition/odbcConnectionDefinition.ini
ha il seguente contenuto. Creare una sezione " [Shortcut_Name]
separata per ogni connessione.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Nome_scorciatoia: Il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dei dati.
- tipo_connessione: Il tipo di origine dei dati.
- stringa_di_connessione: Una stringa di connessione JDBC o qualsiasi identificazione del database, come l'ID del sistema (SID) o il nome dell'host.
- nome_server: il valore dipende dal tipo di origine dati:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase) o Teradata: Il nome del server.
- FTP: il nome dell'host.
- Oracle e altri database: Il valore viene ignorato.
- nome_database: il valore dipende dal tipo di origine dati:
- Oracle: il nome del database globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase), Teradata e altri database: Il nome del database predefinito.
- nome_utente: il nome dell'utente che accede al database.
Aggiungere una nuova riga alla fine dei parametri per ogni sezione.
Il file 'datastageComponentOverrides.csv
formato
Il file 'datastageComponentOverrides.csv
ha il seguente contenuto:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Il percorso dello stage è nel formato 'Job/[Shared and Local containers optional]/Stage
.
Opzioni di importazione avanzate
- Autenticazione utente proxy Oracle
- È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su '
true
per cambiare i nomi utente Oracle in formato '\"USERNAME[SCHEMA_OWNER]\"
in formato '\"SCHEMA_OWNER\"
. In altri casi, impostare il valore su 'false
. - File di valore
- Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio,
DEV1,TEST,PROD
.
Ulteriori informazioni
Argomento principale: Progettazione delle importazioni di metadati