0 / 0
Volver a la versión inglesa de la documentación

'IBM ' DataStage para conexión ' Cloud Pak for Data

Última actualización: 03 dic 2024
'IBM ' DataStage para conexión ' Cloud Pak for Data

Para acceder a sus datos en DataStage for Cloud Pak for Data, cree un activo de conexión para ello.

DataStage para Cloud Pak for Data es una herramienta de integración de datos para diseñar, desarrollar y ejecutar trabajos que mueven y transforman datos.

Crear una conexión con DataStage Cloud Pak for Data

Para crear el activo de conexión, necesita los siguientes datos de conexión:

  • Nombre de host o dirección IP
  • Número de puerto
  • Credenciales: especifique el nombre de usuario y la contraseña o la clave API
  • Certificado SSL (si lo requiere el servidor de la base de datos). Por ejemplo, especifique un certificado si su instancia de DataStage para Cloud Pak for Data no se encuentra en el mismo clúster que el proyecto en el que desea crear un trabajo de importación de metadatos.

Elija el método para crear una conexión basada en el lugar en el que se encuentra en la plataforma

En un proyecto '
' Haga clic en Activos > Nuevo activo > Conectar a una fuente de datos. Consulte Adición de una conexión a un proyecto.

En el Platform assets catalog "
", haga clic en Nueva conexión. Consulte Adición de conexiones de plataforma.

Siguiente paso: Importar los metadatos de linaje de la conexión

Ejecute la importación de metadatos para importar datos de linaje y ver cómo se conectan los datos en el gráfico de linaje. Consulte Importación de metadatos.

Dónde puede utilizar esta conexión

Puede utilizar la conexión " DataStage para " Cloud Pak for Data " en los siguientes espacios de trabajo y herramientas:

Catálogos

  • Platform assets catalog

Linaje de datos

  • Metadata import (lineage)IBM Knowledge Catalog y Manta Data Lineage)

Configuración de la importación de metadatos de linaje para DataStage for Cloud Pak for Data

Al crear una importación de metadatos para la conexión de DataStage for Cloud Pak for Data, puede establecer opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulte Diseño de importaciones de metadatos.

Para importar metadatos de linaje para DataStage para Cloud Pak for Data, siga estos pasos:

  1. Crear una definición de fuente de datos. Seleccione IBM DataStage for Cloud Pak for Data como tipo de origen de datos.
  2. Crear una conexión con la fuente de datos en un proyecto.
    • Para conectarse a DataStage for Cloud Pak for Data, proporcione un nombre de usuario y una contraseña.
    • Para conectarse a DataStage for Cloud Pak for Data as a Service, proporcione la clave API. Si no dispone de una, desde el menú de navegación vaya a Administración > Acceso (IAM) > Gestionar identidades > Claves API y cree una nueva clave API. Utilice el valor del token en los detalles de la conexión.
    • Especifique un certificado si su instancia de DataStage para Cloud Pak for Data no se encuentra en el mismo clúster que el proyecto en el que desea crear un trabajo de importación de metadatos.
  3. Crear una importación de metadatos. Más información sobre las opciones específicas del origen de datos DataStage for Cloud Pak for Data:
    • Al definir un ámbito, puede analizar toda la fuente de datos o utilizar las opciones de inclusión y exclusión para definir los proyectos y flujos exactos que desea analizar. Véase Listas de inclusión y exclusión.
    • Opcionalmente, puede proporcionar una entrada externa en forma de archivo .zip. Añada este fichero en el campo Añadir entradas desde fichero. Puede decidir añadir entradas externas además del alcance definido de los datos extraídos, o puede importar datos sólo de la entrada externa. Para añadir una entrada externa, siga estos pasos:
    1. Prepare un archivo .zip como entrada externa.
    2. Cargue el archivo .zip en el proyecto.
    3. Configura la importación para utilizar sólo la entrada externa.

Listas de inclusión y exclusión

Puede incluir o excluir activos hasta el nivel de flujo. Proporcionar bases de datos y esquemas en el formato proyecto/flujo. Cada parte se evalúa como una expresión regular. Los activos que se añadan posteriormente en la fuente de datos también se incluirán o excluirán si cumplen las condiciones especificadas en las listas. Valores de ejemplo:

  • 'myProject/: todos los flujos del proyecto ' myProject '.
  • 'myProject3/myFlow1: ' myFlow1 ' flujo del proyecto ' myProject3 '.

Preparar un archivo .zip como entrada externa

Puede proporcionar flujos DataStage como entradas externas en un archivo .zip. La carpeta debe tener la siguiente estructura:

  • <project_export.zip> - Un proyecto DataStage exportado a un archivo .zip.
  • DSParams - Un archivo que contiene los parámetros a nivel de proyecto o de entorno, si procede. Puede obtener este archivo en el directorio del proyecto.
  • datastageParameterOverride.txt - Un archivo con anulaciones de conjuntos de parámetros si sus trabajos utilizan conjuntos de parámetros.
  • connection_definition/odbcConnectionDefinition.ini - Un archivo con definiciones de conexión para conexiones ODBC. Las definiciones de las conexiones ODBC no se incluyen en las exportaciones XML DataStage y deben especificarse por separado.
  • datastageComponentOverrides.csv - Un archivo con anulaciones de línea de componentes.
Nota: Incluso cuando desee utilizar sólo un proyecto en un archivo .zip, este archivo .zip del proyecto debe comprimirse en otro archivo .zip para cargarlo en el proyecto.

El formato del archivo .zip con el proyecto DataStage exportado
' Cuando exporta un proyecto DataStage, éste debe tener la siguiente estructura:

  • assets- carpeta obligatoria.
    • .METADATA- carpeta obligatoria.
    • data_intg_flow.*.json- archivos obligatorios que contienen información sobre los flujos.
    • connection.*.json - archivos opcionales que contienen información sobre las conexiones.
    • parameter_set.*.json - archivos opcionales que contienen información sobre los conjuntos de parámetros.
    • job.*.json - archivos opcionales que contienen información sobre los trabajos.
    • job_run.*.json - archivos opcionales que contienen información sobre ejecuciones concretas del trabajo.
    • data_intg_flow- carpeta obligatoria.
    • Al menos un archivo que contenga la cadena ' "schemas":[{, pero que no termine en ' px_executables.
  • assettypes- carpeta obligatoria.
  • project.json- archivo requerido. Es posible que haya varias instancias de este archivo como resultado de la descompresión ZIP, lo cual es correcto.

El formato de archivo " datastageParameterOverride.txt
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

El formato de archivo " connection_definition/odbcConnectionDefinition.ini
The connection_definition/odbcConnectionDefinition.ini file has the following content. Cree una sección ' [Shortcut_Name] ' separada para cada conexión.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Nombre_del_acceso_corto: El nombre de la conexión o servidor de datos que utiliza la herramienta de integración de datos.
  • tipo_conexión: El tipo de fuente de datos.
  • cadena_de_conexión: Una cadena de conexión JDBC o cualquier identificación de la base de datos, como el ID del sistema (SID) o el nombre del host.
  • nombre_servidor: El valor depende del tipo de fuente de datos:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase) o Teradata: El nombre del servidor.
    • FTP: El nombre del host.
    • Oracle y otras bases de datos: El valor se ignora.
  • database_name: El valor depende del tipo de fuente de datos:
    • Oracle: El nombre global de la base de datos.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase), Teradata y otras bases de datos: El nombre de la base de datos por defecto.
    • nombre_usuario: El nombre del usuario que se conecta a la base de datos.

Añada una nueva línea al final de los parámetros para cada sección.

El formato de archivo " datastageComponentOverrides.csv
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

La ruta a la etapa tiene el formato ' Job/[Shared and Local containers optional]/Stage.

Cargue el archivo .zip en el proyecto

Para utilizar el archivo .zip en la importación de metadatos, debe añadirlo al proyecto donde cree la importación de metadatos.

  1. En el proyecto, haga clic en Importar activos.
  2. En la sección Archivo local, haga clic en Activo de datos.
  3. Añada el archivo .zip con el proyecto DataStage.

Cuando cree la importación de metadatos, podrá seleccionar este archivo en el paso Añadir entradas desde archivo.

Configurar la importación para utilizar sólo la entrada externa

Si desea importar metadatos solo desde la entrada externa proporcionada, y no directamente desde la instancia conectada de DataStage for Cloud Pak for Data, complete estos pasos:

  1. Añada el archivo .zip en la sección Añadir entradas desde archivo y haga clic en Siguiente.
  2. Despliegue la lista de fases de importación de Lineage y desactive la fase de extracción de transformaciones.

Opciones avanzadas de importación

Analizar ejecuciones de trabajos
Especifica si se analizan las ejecuciones de trabajos.
Analizar ejecuciones de trabajos desde
Especifica la fecha a partir de la cual se analizan las ejecuciones. Si el valor está vacío, se analizan todas las ejecuciones. Valor de ejemplo: ' 1970/01/01 00:00:00.000.
Analizar los trabajos por separado
Especifica si se analizan los trabajos por separado, incluso cuando hay otras ejecuciones asociadas a ellos.
Analizar flujos sin trabajos
Especifica si se analizan los flujos sin trabajos.
Autenticación de usuarios de proxy Oracle
Puede utilizar la autenticación de usuario proxy Oracle. Establezca el valor en ' true ' para cambiar los nombres de usuario Oracle en formato ' \"USERNAME[SCHEMA_OWNER]\" ' a formato ' \"SCHEMA_OWNER\" '. En los demás casos, ajuste el valor a " false.
Archivos de valores
Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo, DEV1,TEST,PROD.

Más información

Importar metadatos

Tema principal: Conexiones soportadas