Configuración de la importación de metadatos para activos de integración de datos

Última actualización: 04 oct 2024

La integración de datos utiliza procesos técnicos y de negocio para combinar datos de distintas fuentes y crear información que sea significativa y valiosa para su empresa. Las herramientas de integración de datos pueden utilizar patrones de extracción, transformación y carga (ETL) para transformar y organizar los datos en función de las necesidades empresariales. Estos trabajos ETL mueven los datos de los sistemas de origen a los sistemas de destino.

Puede importar metadatos de linaje desde InfoSphere DataStage y DataStage for Cloud Pak for Data. No se pueden importar activos de estas fuentes.

InfoSphere DataStage

Al crear una importación de metadatos de linaje para InfoSphere DataStage, puede establecer opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulte Diseño de importaciones de metadatos.

Entradas externas

Puede proporcionar activos de InfoSphere DataStage como trabajos, etapas o archivos de metadatos operativos como entradas externas en un archivo ZIP. La carpeta debe tener la siguiente estructura:

<job_name.xml> - The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.
omd_files - A folder for operational metadata (OMD) files.
- <omd_file_name> - Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
sql_files - A folder that contains all SQL files.
- <sql_file_name> - A file with SQL queries.
DSParams - A file that contains the project- or environment-level parameters if applicable. Puede obtener este archivo en el directorio del proyecto.
datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. Las definiciones de conexiones ODBC no se incluyen en las exportaciones XML de DataStage y se deben especificar por separado.
datastageComponentOverrides.csv - A file with component-lineage overrides.

El formato de archivo datastageParameterOverride.txt
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

El formato de archivo connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini file has the following content. Cree una sección [Shortcut_Name] separada para cada conexión.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>

Shortcut_Name: el nombre de la conexión o servidor de datos que utiliza la herramienta de integración de datos.
connection_type: tipo de origen de datos.
connection_string: una serie de conexión JDBC o cualquier identificación de la base de datos como, por ejemplo, el ID del sistema (SID) o el nombre de host.
server_name: El valor depende del tipo de origen de datos:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anteriormente Sybase) o Teradata: el nombre del servidor.
- FTP: El nombre de host.
- Oracle y otras bases de datos: el valor se ignora.
database_name: El valor depende del tipo de origen de datos:
- Oracle: el nombre de la base de datos global.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anteriormente Sybase), Teradatay otras bases de datos: el nombre de la base de datos predeterminada.
- user_name: El nombre del usuario que inicia la sesión en la base de datos.

Añada una nueva línea al final de los parámetros para cada sección.

El formato de archivo datastageComponentOverrides.csv
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

La vía de acceso a la etapa está en el formato Job/[Shared and Local containers optional]/Stage.

Opciones avanzadas de importación

Autenticación de usuarios proxyOracle: Puede utilizar la autenticación de usuario proxy Oracle. Establezca el valor en true para cambiar los nombres de usuario Oracle en formato \"USERNAME[SCHEMA_OWNER]\" a formato \"SCHEMA_OWNER\". En los demás casos, ajuste el valor a false.
Archivos de valores: Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo, DEV1,TEST,PROD.

DataStage para Cloud Pak for Data

Al crear una importación de metadatos de linaje para DataStage for Cloud Pak for Data, puede establecer opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulte Diseño de importaciones de metadatos.