0 / 0
Torna alla versione inglese della documentazione

Configurazione dell'importazione dei metadati per le risorse di integrazione dei dati

Ultimo aggiornamento: 04 ott 2024
Configurazione dell'importazione dei metadati per le risorse di integrazione dei dati

L'integrazione dei dati utilizza processi tecnici e di business per combinare i dati provenienti da diverse fonti e creare informazioni significative e preziose per l'azienda. Gli strumenti di integrazione dei dati possono utilizzare modelli ETL (extract, transform, load) per trasformare e organizzare i dati in base alle esigenze di business. Tali lavori ETL spostano i dati dai sistemi di origine ai sistemi di destinazione.

È possibile importare metadati di lineage da InfoSphere DataStage e DataStage for Cloud Pak for Data. Non è possibile importare risorse da queste fonti.

InfoSphere DataStage

Quando si crea un'importazione di metadati di lineage per InfoSphere DataStage, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.

Input esterni

È possibile fornire risorse di InfoSphere DataStage come lavori, fasi o file di metadati operativi come input esterni in un file ZIP. La cartella deve avere la seguente struttura:

  • <job_name.xml> - The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.
  • omd_files - A folder for operational metadata (OMD) files.
    • <omd_file_name> - Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
  • sql_files - A folder that contains all SQL files.
    • <sql_file_name> - A file with SQL queries.
  • DSParams - A file that contains the project- or environment-level parameters if applicable. È possibile ottenere questo file dalla directory del progetto.
  • datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
  • connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. Le definizioni delle connessioni ODBC non vengono incluse nelle esportazioni XML DataStage e devono essere specificate separatamente.
  • datastageComponentOverrides.csv - A file with component-lineage overrides.

Il formato di file datastageParameterOverride.txt
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

Il formato di file connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini file has the following content. Creare una sezione [Shortcut_Name] separata per ogni connessione.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name: il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dati.
  • tipo_connessione: il tipo di origine dati.
  • connection_string: una stringa di connessione JDBC o qualsiasi identificazione del database, ad esempio l'ID sistema (SID) o il nome host.
  • nome_server: il valore dipende dal tipo di origine dati:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase) o Teradata: il nome del server.
    • FTP: il nome host.
    • Oracle e altri database: il valore viene ignorato.
  • nome_database: il valore dipende dal tipo di origine dati:
    • Oracle: il nome del database globale.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase), Teradatae altri database: il nome del database predefinito.
    • user_name: il nome dell'utente che accede al database.

Aggiungere una nuova riga alla fine dei parametri per ogni sezione.

Il formato di file datastageComponentOverrides.csv
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Il percorso dello stage è nel formato Job/[Shared and Local containers optional]/Stage.

Opzioni di importazione avanzate

Autenticazione utente proxyOracle
È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su true per cambiare i nomi utente Oracle in formato \"USERNAME[SCHEMA_OWNER]\" in formato \"SCHEMA_OWNER\". In altri casi, impostare il valore su false.
File di valore
Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio, DEV1,TEST,PROD.

DataStage per Cloud Pak for Data

Quando si crea un'importazione di metadati di lineage per DataStage for Cloud Pak for Data, è possibile impostare opzioni specifiche per questa origine dati e definire l'ambito dei dati per cui viene generato il lineage. Per informazioni dettagliate sull'importazione dei metadati, vedere Progettazione delle importazioni di metadati.

Input esterni

È possibile fornire i flussi di DataStage come input esterni in un file ZIP. La cartella deve avere la seguente struttura:

  • <project_export.zip> - A DataStage project exported to a ZIP file.
  • DSParams - A file that contains the project- or environment-level parameters if applicable. È possibile ottenere questo file dalla directory del progetto.
  • datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
  • connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. Le definizioni delle connessioni ODBC non vengono incluse nelle esportazioni XML DataStage e devono essere specificate separatamente.
  • datastageComponentOverrides.csv - A file with component-lineage overrides.

Il formato del file ZIP con il progetto DataStage esportato Quando si esporta un progetto DataStage, questo deve avere la seguente struttura:

  • assets - required folder.
    • .METADATA - required folder.
    • data_intg_flow.*.json - required files that contain information about flows.
    • connection.*.json - optional files that contain information about connections.
    • parameter_set.*.json - optional files that contain information about parameter sets.
    • job.*.json - optional files that contain information about jobs.
    • job_run.*.json - optional files that contain information about particular executions of the job.
    • data_intg_flow - required folder.
    • Almeno un file che contenga la stringa "schemas":[{, ma che non finisca in px_executables.
  • assettypes - required folder.
  • project.json - required file. Potrebbero esserci più istanze di questo file come risultato della decompressione ZIP, il che è corretto.

Il formato di file datastageParameterOverride.txt
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

Il formato di file connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini file has the following content. Creare una sezione [Shortcut_Name] separata per ogni connessione.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name: il nome della connessione o del server di dati utilizzato dallo strumento di integrazione dati.
  • tipo_connessione: il tipo di origine dati.
  • connection_string: una stringa di connessione JDBC o qualsiasi identificazione del database, ad esempio l'ID sistema (SID) o il nome host.
  • nome_server: il valore dipende dal tipo di origine dati:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase) o Teradata: il nome del server.
    • FTP: il nome host.
    • Oracle e altri database: il valore viene ignorato.
  • nome_database: il valore dipende dal tipo di origine dati:
    • Oracle: il nome del database globale.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (precedentemente Sybase), Teradatae altri database: il nome del database predefinito.
    • user_name: il nome dell'utente che accede al database.

Aggiungere una nuova riga alla fine dei parametri per ogni sezione.

Il formato di file datastageComponentOverrides.csv
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Il percorso dello stage è nel formato Job/[Shared and Local containers optional]/Stage.

Opzioni di importazione avanzate

Analizzare le esecuzioni dei lavori
Specifica se le esecuzioni dei lavori vengono analizzate.
Analizzare i lavori eseguiti da
Specifica la data dopo la quale le corse vengono analizzate. Se il valore è vuoto, vengono analizzate tutte le corse. Example value: 1970/01/01 00:00:00.000.
Analizzare i lavori separatamente
Specifica se analizzare i lavori separatamente, anche se ad essi sono associate altre esecuzioni.
Analizzare i flussi senza lavori
Specifica se i flussi senza lavori vengono analizzati.
Autenticazione utente proxyOracle
È possibile utilizzare l'autenticazione utente proxy Oracle. Impostare il valore su true per cambiare i nomi utente Oracle in formato \"USERNAME[SCHEMA_OWNER]\" in formato \"SCHEMA_OWNER\". In altri casi, impostare il valore su false.
File di valore
Specificare i nomi dei file di valori da utilizzare nei set di parametri in ordine di priorità. Ad esempio, DEV1,TEST,PROD.

Ulteriori informazioni

Argomento principale: Progettazione delle importazioni di metadati