Configurazione dell'importazione dei metadati per le risorse di integrazione dei dati

Torna alla versione inglese della documentazione

Ultimo aggiornamento: 03 dic 2024

Configurazione dell'importazione dei metadati per le risorse di integrazione dei dati

L'integrazione dei dati utilizza processi tecnici e aziendali per combinare dati provenienti da fonti diverse e creare informazioni significative e di valore per l'azienda. Gli strumenti di integrazione dei dati possono utilizzare modelli di estrazione, trasformazione e caricamento (ETL) per trasformare e organizzare i dati in base alle esigenze aziendali. Questi lavori ETL spostano i dati dai sistemi di origine a quelli di destinazione.

È possibile importare metadati di lignaggio da InfoSphere DataStage. Non è possibile importare risorse da questa fonte.

InfoSphere DataStage

Quando si crea un'importazione di metadati di lineage per InfoSphere DataStage, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.

Input esterni

È possibile fornire risorse di InfoSphere DataStage come lavori, fasi o file di metadati operativi come input esterni in un file .zip. La cartella deve avere la seguente struttura:

<job_name.xml> - I lavori DataStage paralleli che si desidera analizzare e i set di parametri utilizzati in tali lavori come un unico file XML, esportato dal client di progettazione.
omd_files - Una cartella per i file dei metadati operativi (OMD).
- <omd_file_name> - File di metadati operativi che vengono raccolti durante l'esecuzione dei lavori per risolvere qualsiasi tipo di parametro nei lavori.
sql_files - Una cartella che contiene tutti i file SQL.
- <sql_file_name> - Un file con le query SQL.
DSParams - Un file che contiene i parametri a livello di progetto o di ambiente, se applicabile. È possibile ottenere questo file dalla directory del progetto.
datastageParameterOverride.txt - Un file con le sovrascritture dei set di parametri, se i lavori utilizzano i set di parametri.
connection_definition/odbcConnectionDefinition.ini - Un file con le definizioni di connessione per le connessioni ODBC. Le definizioni delle connessioni ODBC non sono incluse nelle esportazioni XML di DataStage e devono essere specificate separatamente.
datastageComponentOverrides.csv - Un file con le sovrascritture dei componenti.

Il file 'datastageParameterOverride.txt formato
Il file 'datastageParameterOverride.txt ha il seguente contenuto:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

Il file 'connection_definition/odbcConnectionDefinition.ini formato
Il file 'connection_definition/odbcConnectionDefinition.ini ha il seguente contenuto. Creare una sezione " [Shortcut_Name] separata per ogni connessione.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>

Nome_scorciatoia: Il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dei dati.
tipo_connessione: Il tipo di origine dei dati.
stringa_di_connessione: Una stringa di connessione JDBC o qualsiasi identificazione del database, come l'ID del sistema (SID) o il nome dell'host.
nome_server: il valore dipende dal tipo di origine dati:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase) o Teradata: Il nome del server.
- FTP: il nome dell'host.
- Oracle e altri database: Il valore viene ignorato.
nome_database: il valore dipende dal tipo di origine dati:
- Oracle: il nome del database globale.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (ex Sybase), Teradata e altri database: Il nome del database predefinito.
- nome_utente: il nome dell'utente che accede al database.

Aggiungere una nuova riga alla fine dei parametri per ogni sezione.

Il file 'datastageComponentOverrides.csv formato
Il file 'datastageComponentOverrides.csv ha il seguente contenuto:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Il percorso dello stage è nel formato 'Job/[Shared and Local containers optional]/Stage.

Opzioni di importazione avanzate

Autenticazione utente proxy Oracle: È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su 'true per cambiare i nomi utente Oracle in formato '\"USERNAME[SCHEMA_OWNER]\" in formato '\"SCHEMA_OWNER\". In altri casi, impostare il valore su 'false.
File di valore: Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio, DEV1,TEST,PROD.

Ulteriori informazioni

Che cos'è l'ETL?

Argomento principale: Progettazione delle importazioni di metadati