La integración de datos utiliza procesos técnicos y de negocio para combinar datos de distintas fuentes y crear información que sea significativa y valiosa para su empresa. Las herramientas de integración de datos pueden utilizar patrones de extracción, transformación y carga (ETL) para transformar y organizar los datos en función de las necesidades empresariales. Estos trabajos ETL mueven los datos de los sistemas de origen a los sistemas de destino.
Puede importar metadatos de linaje desde InfoSphere DataStage y DataStage for Cloud Pak for Data. No se pueden importar activos de estas fuentes.
InfoSphere DataStage
Al crear una importación de metadatos de linaje para InfoSphere DataStage, puede establecer opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulte Diseño de importaciones de metadatos.
Entradas externas
Puede proporcionar activos de InfoSphere DataStage como trabajos, etapas o archivos de metadatos operativos como entradas externas en un archivo ZIP. La carpeta debe tener la siguiente estructura:
<job_name.xml>
- The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.omd_files
- A folder for operational metadata (OMD) files.<omd_file_name>
- Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
sql_files
- A folder that contains all SQL files.<sql_file_name>
- A file with SQL queries.
DSParams
- A file that contains the project- or environment-level parameters if applicable. Puede obtener este archivo en el directorio del proyecto.datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. Las definiciones de conexiones ODBC no se incluyen en las exportaciones XML de DataStage y se deben especificar por separado.datastageComponentOverrides.csv
- A file with component-lineage overrides.
El formato de archivo datastageParameterOverride.txt
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
El formato de archivo connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini
file has the following content. Cree una sección [Shortcut_Name]
separada para cada conexión.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: el nombre de la conexión o servidor de datos que utiliza la herramienta de integración de datos.
- connection_type: tipo de origen de datos.
- connection_string: una serie de conexión JDBC o cualquier identificación de la base de datos como, por ejemplo, el ID del sistema (SID) o el nombre de host.
- server_name: El valor depende del tipo de origen de datos:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anteriormente Sybase) o Teradata: el nombre del servidor.
- FTP: El nombre de host.
- Oracle y otras bases de datos: el valor se ignora.
- database_name: El valor depende del tipo de origen de datos:
- Oracle: el nombre de la base de datos global.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anteriormente Sybase), Teradatay otras bases de datos: el nombre de la base de datos predeterminada.
- user_name: El nombre del usuario que inicia la sesión en la base de datos.
Añada una nueva línea al final de los parámetros para cada sección.
El formato de archivo datastageComponentOverrides.csv
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
La vía de acceso a la etapa está en el formato Job/[Shared and Local containers optional]/Stage
.
Opciones avanzadas de importación
- Autenticación de usuarios proxyOracle
- Puede utilizar la autenticación de usuario proxy Oracle. Establezca el valor en
true
para cambiar los nombres de usuario Oracle en formato\"USERNAME[SCHEMA_OWNER]\"
a formato\"SCHEMA_OWNER\"
. En los demás casos, ajuste el valor afalse
. - Archivos de valores
- Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo,
DEV1,TEST,PROD
.
DataStage para Cloud Pak for Data
Al crear una importación de metadatos de linaje para DataStage for Cloud Pak for Data, puede establecer opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulte Diseño de importaciones de metadatos.
Entradas externas
Puede proporcionar flujos DataStage como entradas externas en un archivo ZIP. La carpeta debe tener la siguiente estructura:
<project_export.zip>
- A DataStage project exported to a ZIP file.DSParams
- A file that contains the project- or environment-level parameters if applicable. Puede obtener este archivo en el directorio del proyecto.datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. Las definiciones de conexiones ODBC no se incluyen en las exportaciones XML de DataStage y se deben especificar por separado.datastageComponentOverrides.csv
- A file with component-lineage overrides.
El formato del archivo ZIP con el proyecto DataStage exportado Al exportar un proyecto DataStage, éste debe tener la siguiente estructura:
assets
- required folder..METADATA
- required folder.data_intg_flow.*.json
- required files that contain information about flows.connection.*.json
- optional files that contain information about connections.parameter_set.*.json
- optional files that contain information about parameter sets.job.*.json
- optional files that contain information about jobs.job_run.*.json
- optional files that contain information about particular executions of the job.data_intg_flow
- required folder.- Al menos un archivo que contenga la cadena
"schemas":[{
, pero que no termine enpx_executables
.
assettypes
- required folder.project.json
- required file. Es posible que haya varias instancias de este archivo como resultado de la descompresión ZIP, lo cual es correcto.
El formato de archivo datastageParameterOverride.txt
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
El formato de archivo connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini
file has the following content. Cree una sección [Shortcut_Name]
separada para cada conexión.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: el nombre de la conexión o servidor de datos que utiliza la herramienta de integración de datos.
- connection_type: tipo de origen de datos.
- connection_string: una serie de conexión JDBC o cualquier identificación de la base de datos como, por ejemplo, el ID del sistema (SID) o el nombre de host.
- server_name: El valor depende del tipo de origen de datos:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anteriormente Sybase) o Teradata: el nombre del servidor.
- FTP: El nombre de host.
- Oracle y otras bases de datos: el valor se ignora.
- database_name: El valor depende del tipo de origen de datos:
- Oracle: el nombre de la base de datos global.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (anteriormente Sybase), Teradatay otras bases de datos: el nombre de la base de datos predeterminada.
- user_name: El nombre del usuario que inicia la sesión en la base de datos.
Añada una nueva línea al final de los parámetros para cada sección.
El formato de archivo datastageComponentOverrides.csv
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
La vía de acceso a la etapa está en el formato Job/[Shared and Local containers optional]/Stage
.
Opciones avanzadas de importación
- Analizar ejecuciones de trabajos
- Especifica si se analizan las ejecuciones de trabajos.
- Analizar las ejecuciones desde
- Especifica la fecha a partir de la cual se analizan las ejecuciones. Si el valor está vacío, se analizan todas las ejecuciones. Example value:
1970/01/01 00:00:00.000
. - Analizar los trabajos por separado
- Especifica si se analizan los trabajos por separado, incluso cuando hay otras ejecuciones asociadas a ellos.
- Analizar flujos sin trabajos
- Especifica si se analizan los flujos sin trabajos.
- Autenticación de usuarios proxyOracle
- Puede utilizar la autenticación de usuario proxy Oracle. Establezca el valor en
true
para cambiar los nombres de usuario Oracle en formato\"USERNAME[SCHEMA_OWNER]\"
a formato\"SCHEMA_OWNER\"
. En los demás casos, ajuste el valor afalse
. - Archivos de valores
- Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo,
DEV1,TEST,PROD
.
Más información
Tema principal: Diseño de importaciones de metadatos