La integración de datos utiliza procesos técnicos y empresariales para combinar datos de distintas fuentes y crear información significativa y valiosa para su empresa. Las herramientas de integración de datos pueden utilizar patrones de extracción, transformación y carga (ETL) para transformar y organizar los datos en función de las necesidades de la empresa. Estos trabajos ETL trasladan los datos de los sistemas de origen a los sistemas de destino.
Puede importar metadatos de linaje desde InfoSphere DataStage. No se pueden importar activos de esta fuente.
InfoSphere DataStage
Al crear una importación de metadatos de linaje para InfoSphere DataStage, puede establecer opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulte Diseño de importaciones de metadatos.
Entradas externas
Puede proporcionar activos de InfoSphere DataStage como trabajos, etapas o archivos de metadatos operativos como entradas externas en un archivo .zip. La carpeta debe tener la siguiente estructura:
<job_name.xml>
- Los trabajos paralelos DataStage que desea analizar y los conjuntos de parámetros que utiliza en esos trabajos como un archivo XML, exportado desde el cliente de diseño.omd_files
- Una carpeta para archivos de metadatos operativos (OMD).<omd_file_name>
- Archivos de metadatos operativos que se recopilan durante la ejecución de los trabajos para resolver cualquier tipo de parámetro en los trabajos.
sql_files
- Una carpeta que contiene todos los archivos SQL.<sql_file_name>
- Un archivo con consultas SQL.
DSParams
- Un archivo que contiene los parámetros a nivel de proyecto o de entorno, si procede. Puede obtener este archivo en el directorio del proyecto.datastageParameterOverride.txt
- Un archivo con anulaciones de conjuntos de parámetros si sus trabajos utilizan conjuntos de parámetros.connection_definition/odbcConnectionDefinition.ini
- Un archivo con definiciones de conexión para conexiones ODBC. Las definiciones de las conexiones ODBC no se incluyen en las exportaciones XML DataStage y deben especificarse por separado.datastageComponentOverrides.csv
- Un archivo con anulaciones de línea de componentes.
El formato de archivo " datastageParameterOverride.txt
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
El formato de archivo " connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini
file has the following content. Cree una sección ' [Shortcut_Name]
' separada para cada conexión.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Nombre_del_acceso_corto: El nombre de la conexión o servidor de datos que utiliza la herramienta de integración de datos.
- tipo_conexión: El tipo de fuente de datos.
- cadena_de_conexión: Una cadena de conexión JDBC o cualquier identificación de la base de datos, como el ID del sistema (SID) o el nombre del host.
- nombre_servidor: El valor depende del tipo de fuente de datos:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase) o Teradata: El nombre del servidor.
- FTP: El nombre del host.
- Oracle y otras bases de datos: El valor se ignora.
- database_name: El valor depende del tipo de fuente de datos:
- Oracle: El nombre global de la base de datos.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase), Teradata y otras bases de datos: El nombre de la base de datos por defecto.
- nombre_usuario: El nombre del usuario que se conecta a la base de datos.
Añada una nueva línea al final de los parámetros para cada sección.
El formato de archivo " datastageComponentOverrides.csv
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
La ruta a la etapa tiene el formato ' Job/[Shared and Local containers optional]/Stage
.
Opciones avanzadas de importación
- Autenticación de usuarios de proxy Oracle
- Puede utilizar la autenticación de usuario proxy Oracle. Establezca el valor en '
true
' para cambiar los nombres de usuario Oracle en formato '\"USERNAME[SCHEMA_OWNER]\"
' a formato '\"SCHEMA_OWNER\"
'. En los demás casos, ajuste el valor a "false
. - Archivos de valores
- Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo,
DEV1,TEST,PROD
.
Más información
Tema principal: Diseño de importaciones de metadatos