0 / 0
Volver a la versión inglesa de la documentación

Etapa Eliminar duplicados (DataStage)

Última actualización: 12 mar 2025
Etapa Eliminar duplicados en DataStage

La etapa Eliminar duplicados utiliza un único conjunto de datos ordenado como entrada, elimina todas las filas duplicadas y graba los resultados en un conjunto de datos de salida.

La etapa Eliminar duplicados es una etapa de proceso. Puede tener un solo enlace de entrada y un solo enlace de salida.

La eliminación de registros duplicados es una forma común de limpiar un conjunto de datos antes de realizar un proceso adicional. Dos filas se consideran duplicadas si están adyacentes en el conjunto de datos de entrada y tienen valores idénticos para las columnas de clave. Una columna de clave es una columna que se designa para determinar si dos filas son idénticas.

La entrada del conjunto de datos en la etapa Eliminar duplicados debe estar ordenada para que todos los registros con valores de clave idénticos estén adyacentes. Para ello, utilice los recursos de ordenación de la etapa que están disponibles en la pestaña Particionamiento de la página Entrada, o utilice una etapa Clasificar explícita que alimenta datos en la etapa Eliminar duplicados.

El editor de etapas tiene tres separadores:

  • Etapa. Siempre está presente y se utiliza para especificar información general sobre la etapa.
  • Entrada. Aquí es donde se especifican los detalles sobre el conjunto de datos cuyos duplicados se van a eliminar.
  • Salida. Aquí es donde se especifican los detalles sobre los datos procesados que se generan desde la etapa.

Pestaña Entrada

La sección Columnas especifica las definiciones de columna de los datos de entrada. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados para el enlace de entrada.

Pestaña Salida

La sección Columnas especifica las definiciones de columna de los datos. La sección Correlaciones de entrada de columna que aparece cuando pulsa Editar en la sección de columnas permite especificar la relación entre las columnas de entrada en la etapa Eliminar duplicados y las columnas de salida. Aquí puede especificar cómo se derivan las columnas de salida, es decir, qué columnas de entrada se correlacionan con ellas o cómo se generan. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados de los enlaces de salida.