IBM DataStage para la configuración del linaje Cloud Pak for Data
Para importar metadatos de linaje de IBM DataStage para Cloud Pak for Data, cree una conexión, una definición de fuente de datos y un trabajo de importación de metadatos.
Para importar metadatos de linaje para IBM DataStage para Cloud Pak for Data, complete estos pasos:
- Crear una definición de fuente de datos.
- Crear una conexión con la fuente de datos en un proyecto.
- Crear una importación de metadatos.
Creación de una definición de fuente de datos
Crear una definición de fuente de datos. Seleccione IBM DataStage para Cloud Pak for Data como tipo de fuente de datos.
Creación de una conexión a DataStage para Cloud Pak for Data
Crear una conexión con la fuente de datos en un proyecto. Para obtener detalles de conexión, consulte Conexión DataStage para Cloud Pak for Data.
- Para conectarse a DataStage para Cloud Pak for Data, proporcione un nombre de usuario y una contraseña.
- Para conectarse a DataStage para Cloud Pak for Data as a Service, proporcione la clave API. Si no dispone de una, desde el menú de navegación vaya a Administración > Acceso (IAM) > Gestionar identidades > Claves API y cree una nueva clave API. Utilice el valor del token en los detalles de la conexión.
- Especifique un certificado si su instancia de DataStage para Cloud Pak for Data no se encuentra en el mismo clúster que el proyecto en el que desea crear un trabajo de importación de metadatos.
Creación de una importación de metadatos
Crear una importación de metadatos. Más información sobre las opciones específicas de DataStage para la fuente de datos Cloud Pak for Data :
Listas de inclusión y exclusión
Puede incluir o excluir activos hasta el nivel de flujo. Proporcionar bases de datos y esquemas en el formato proyecto/flujo. Cada parte se evalúa como una expresión regular. Los activos que se añadan posteriormente en la fuente de datos también se incluirán o excluirán si cumplen las condiciones especificadas en las listas. Valores de ejemplo:
myProject/
: todos los flujos en el proyectomyProject
.myProject3/myFlow1
:myFlow1
flujo del proyectomyProject3
.
Entradas externas
Opcionalmente, puede proporcionar una entrada externa en forma de archivo.zip. Añada este fichero en el campo Añadir entradas desde fichero. Puede decidir añadir entradas externas además del alcance definido de los datos extraídos, o puede importar datos sólo de la entrada externa. Para añadir una entrada externa, siga estos pasos:
- Prepare un archivo.zip como entrada externa.
- Cargue el archivo.zip en el proyecto.
- Configura la importación para utilizar sólo la entrada externa.
Preparar un archivo.zip como entrada externa
Puede proporcionar flujos DataStage como entradas externas en un archivo.zip. La carpeta debe tener la siguiente estructura:
<project_export.zip>
- Un proyecto de DataStage exportado a un archivo.zip.DSParams
- Un archivo que contiene los parámetros a nivel de proyecto o de entorno, si procede. Puede obtener este archivo en el directorio del proyecto.datastageParameterOverride.txt
- Un archivo con anulaciones de conjuntos de parámetros si sus trabajos utilizan conjuntos de parámetros.connection_definition/odbcConnectionDefinition.ini
- Un archivo con definiciones de conexión para las conexiones de ODBC. Las definiciones de las conexiones ODBC no se incluyen en las exportaciones XML de DataStage y deben especificarse por separado.datastageComponentOverrides.csv
- Un archivo con anulaciones de línea de componentes.
El formato del archivo.zip con el proyecto DataStage exportado Al exportar un proyecto DataStage, éste debe tener la siguiente estructura:
assets
- carpeta obligatoria..METADATA
- carpeta obligatoria.data_intg_flow.*.json
- archivos necesarios que contienen información sobre los flujos.connection.*.json
- archivos opcionales que contienen información sobre las conexiones.parameter_set.*.json
- archivos opcionales que contienen información sobre los conjuntos de parámetros.job.*.json
- archivos opcionales que contienen información sobre los trabajos.job_run.*.json
-archivos opcionales que contienen información sobre determinadas ejecuciones del trabajo.data_intg_flow
- carpeta obligatoria.- Al menos un archivo que contenga la cadena
"schemas":[{
, pero que no termine enpx_executables
.
assettypes
- carpeta obligatoria.project.json
- archivo necesario. Es posible que haya varias instancias de este archivo como resultado de la descompresión ZIP, lo cual es correcto.
El formato de archivo datastageParameterOverride.txt
El archivo datastageParameterOverride.txt
tiene el siguiente contenido:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
El formato de archivo connection_definition/odbcConnectionDefinition.ini
El archivo connection_definition/odbcConnectionDefinition.ini
tiene el siguiente contenido. Cree una sección [Shortcut_Name]
separada para cada conexión.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Nombre_del_acceso_corto : El nombre de la conexión o servidor de datos que utiliza la herramienta de integración de datos.
- tipo_conexión : El tipo de fuente de datos.
- cadena_de_conexión : Una cadena de conexión JDBC o cualquier identificación de la base de datos, como el ID del sistema (SID) o el nombre del host.
- nombre_servidor : El valor depende del tipo de fuente de datos:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase ), o Teradata : El nombre del servidor.
- FTP: El nombre del host.
- Oracle y otras bases de datos: El valor se ignora.
- database_name : El valor depende del tipo de fuente de datos:
- Oracle : El nombre global de la base de datos.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase ), Teradata, y otras bases de datos: El nombre de la base de datos por defecto.
- nombre_usuario : El nombre del usuario que se conecta a la base de datos.
Añada una nueva línea al final de los parámetros para cada sección.
El formato de archivo datastageComponentOverrides.csv
El archivo datastageComponentOverrides.csv
tiene el siguiente contenido:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
La ruta a la etapa tiene el formato Job/[Shared and Local containers optional]/Stage
.
Cargue el archivo.zip en el proyecto
Para utilizar el archivo.zip en la importación de metadatos, debe añadirlo al proyecto donde cree la importación de metadatos.
- En el proyecto, haga clic en Importar activos.
- En la sección Archivo local, haga clic en Activo de datos.
- Añada el archivo.zip con el proyecto DataStage.
Cuando cree la importación de metadatos, podrá seleccionar este archivo en el paso Añadir entradas desde archivo.
Configurar la importación para utilizar sólo la entrada externa
Si desea importar metadatos sólo desde la entrada externa proporcionada, y no directamente desde la instancia DataStage para Cloud Pak for Data conectada, complete estos pasos:
- Añada el archivo.zip en la sección Añadir entradas desde archivo y haga clic en Siguiente.
- Despliegue la lista de fases de importación de Lineage y desactive la fase de extracción de transformaciones.
Opciones avanzadas de importación
- Analizar ejecuciones de trabajos
- Especifica si se analizan las ejecuciones de trabajos.
- Analizar ejecuciones de trabajos desde
- Especifica la fecha a partir de la cual se analizan las ejecuciones. Si el valor está vacío, se analizan todas las ejecuciones. Valor de ejemplo:
1970/01/01 00:00:00.000
. - Analizar los trabajos por separado
- Especifica si se analizan los trabajos por separado, incluso cuando hay otras ejecuciones asociadas a ellos.
- Analizar flujos sin trabajos
- Especifica si se analizan los flujos sin trabajos.
- Autenticación de usuarios de proxy Oracle
- Puede utilizar la autenticación de usuario proxy Oracle. Establezca el valor en
true
para cambiar los nombres de usuario de Oracle en formato\"USERNAME[SCHEMA_OWNER]\"
a formato\"SCHEMA_OWNER\"
. En los demás casos, ajuste el valor afalse
. - Archivos de valores
- Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo,
DEV1,TEST,PROD
.
Más información
Tema principal: Conectores compatibles para la importación de linajes