0 / 0
Volver a la versión inglesa de la documentación

Fusionar etapa en DataStage

Última actualización: 12 mar 2025
Fase Fusión en DataStage

La etapa Fusión une las tablas basándose en los valores de las columnas de clave. Puede tener un número cualquiera de enlaces de entrada, un solo enlace de salida y el mismo número de enlaces de rechazo que de enlaces de entrada de actualización.

La etapa Fusión combina un conjunto de datos maestros con uno o varios conjuntos de datos de actualización. Es una etapa de proceso. Es una de las tres etapas que unen tablas basándose en los valores de las columnas de clave. Las otras dos son:

Las tres etapas difieren principalmente en la memoria que utilizan, el tratamiento de filas con claves no coincidentes y en sus requisitos de entrada de datos (por ejemplo, si está ordenada).

La etapa Fusión combina un conjunto de datos maestros con uno o varios conjuntos de datos de actualización. Las columnas de los registros de los conjuntos de datos maestro y de actualización se fusionan, de forma que el registro de salida contiene todas las columnas del registro maestro más las columnas adicionales de cada registro de actualización que sean necesarias. Un registro maestro y un registro de actualización solo se fusionan si ambos tienen los mismos valores para las columnas de clave de fusión especificadas. Las columnas de clave de fusión son una o varias columnas que existen en los registros maestro y de actualización.

Los conjuntos de datos de entrada en la etapa Fusión deben estar particionados por clave y ordenados. Esto garantiza que las filas con los mismos valores de columna de clave estén en la misma partición y las procese el mismo nodo. También minimiza los requisitos de memoria porque es necesario que haya menos filas en la memoria al mismo tiempo. La elección del método de particionamiento automático garantiza que se realicen el particionamiento y la ordenación. Si la ordenación y el particionamiento se llevan a cabo en etapas separadas antes de la etapa Fusión, IBM® DataStage® en modalidad de partición automática detectará esto y no reparticionará (de forma alternativa, podría especificar explícitamente el método de particionamiento Igual).

Como parte del preprocesamiento de datos para la etapa Fusión, también debe eliminar los registros duplicados del conjunto de datos maestros. Si tiene más de un conjunto de datos de actualización, debe eliminar los registros duplicados de los conjuntos de datos de actualización. Consulte Etapa Eliminar duplicados (DataStage) para obtener información sobre la etapa Eliminar duplicados.

A diferencia de las etapas Unión y Búsqueda, la etapa Fusión permite especificar varios enlaces de rechazo. Puede direccionar las filas de enlace de actualización que no coincidan con ninguna fila maestra por un enlace de rechazo que sea específico de dicho enlace. Debe tener el mismo número de enlaces de rechazo que enlaces de actualización. La sección Orden de enlaces de la pestaña Etapa permite especificar qué enlaces de actualización envían filas rechazadas a qué enlaces de rechazo. También puede especificar si desea descartar las filas maestras no coincidentes o bien enviarlas al enlace de datos de salida.

El editor de etapas tiene tres separadores:

  • Etapa. Siempre está presente y se utiliza para especificar información general sobre la etapa.
  • Entrada. Aquí es donde se especifican los detalles sobre los conjuntos de datos que se están fusionando.
  • Salida. Aquí es donde se especifican los detalles sobre los datos fusionados que se generan desde la etapa y sobre los enlaces de rechazo.

Pestaña Entrada

La sección Columnas especifica las definiciones de columna de los datos de entrada. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados para el enlace de entrada.

Pestaña Salida

La etapa Fusión sólo puede tener un enlace de salida maestro que incluya los datos fusionados y un número de enlaces de rechazo, cada uno de los cuales incluye registros rechazados desde uno de los enlaces de actualización. Elija un enlace de salida en la lista desplegable Nombre de salida para especificar con qué enlace desea trabajar.

La sección Columnas especifica las definiciones de columna de los datos. La sección de columna Correlaciones de entrada de columna que aparece al pulsar Editar en la sección de columnas permite especificar la relación entre las columnas de entrada en la etapa Fusión y las columnas de salida. También puede especificar cómo se derivan las columnas de salida, es decir, qué columnas de entrada se correlacionan con ellas o cómo se generan. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados de los enlaces de salida.