0 / 0
Volver a la versión inglesa de la documentación

Etapa de comparación de dos fuentes

Última actualización: 12 mar 2025
Etapa de comparación de dos fuentes en DataStage

La etapa de comparación de dos fuentes compara dos fuentes de datos de entrada (registros de referencia y registros de datos) para encontrar coincidencias.

La etapa de comparación de dos fuentes utiliza las siguientes cuatro fuentes de datos para las comparaciones.
  • Una fuente de datos
  • Información de frecuencia sobre la fuente de datos, generada por la etapa de Frecuencia de coincidencia
  • Una fuente de referencia
  • Información de frecuencia sobre la fuente de referencia, generada por la etapa de Frecuencia de coincidencia

Entradas a la etapa de coincidencia de dos fuentes

La etapa de coincidencia de dos fuentes requiere cuatro fuentes de entrada. Los datos y las fuentes de referencia pueden proceder de cualquier base de datos paralela, archivo o fase de procesamiento.

Las cuatro entradas a la etapa de coincidencia de dos fuentes provienen de las siguientes fuentes.
  • Origen de datos
  • Origen de referencia
  • Información de frecuencia sobre los datos y la fuente de referencia, generada por la etapa de Frecuencia de coincidencia. Puede especificar datos de frecuencia de la etapa Match Frequency como parte del trabajo actual. También puede introducir datos de frecuencia que se hayan obtenido de un trabajo de Frecuencia de coincidencia ejecutado anteriormente.

Cuando configure la etapa, designe una especificación de coincidencia de dos fuentes existente de los activos basada en las definiciones de columna de las fuentes de datos y referencia.

La etapa de comparación de dos fuentes compara y agrupa los datos de entrada en función de la especificación de comparación. Usted selecciona las columnas que desea mostrar.

Flujo de trabajo de la etapa de correspondencia de dos fuentes

La etapa de coincidencia de dos fuentes requiere datos estandarizados y datos de referencia como datos de origen, una especificación de coincidencia de dos fuentes e información de frecuencia para ambas fuentes.

Un flujo de trabajo típico para utilizar la etapa de comparación de dos fuentes incluye las siguientes tareas.
  • Estandarizar los datos de origen para la fuente de datos y la fuente de referencia.
  • Preparar conjuntos de datos de muestra representativos a partir de los datos de origen.
  • Utilice la etapa Frecuencia de coincidencia para generar información de frecuencia.
  • Opcional. Si desea reducir la cantidad de datos de frecuencia que se utilizarán en el trabajo de coincidencia de dos fuentes, puede ejecutar de nuevo el trabajo de etapa de coincidencia de frecuencia. Sin embargo, para esta ejecución de trabajo, seleccione la especificación de coincidencia de dos fuentes que creó. Al seleccionar la especificación de coincidencia de dos fuentes en el trabajo de la etapa de coincidencia de frecuencia, los datos de frecuencia se limitan únicamente a las columnas que participarán en el trabajo de coincidencia.
  • Cree un DataStage® activo que incluya la etapa de coincidencia de dos fuentes, con la fuente de datos, la fuente de referencia y la información de frecuencia de cada fuente como entradas.
  • Configure la etapa de correspondencia de dos fuentes, que incluye la selección de la especificación de correspondencia de dos fuentes que ha creado.

Creación de trabajos de etapa de coincidencia de dos fuentes

Un trabajo de etapa de correspondencia de dos fuentes requiere que añada la etapa de correspondencia de dos fuentes al trabajo y la vincule a las fuentes de datos y de referencia y a las etapas de salida.

Procedimiento

  1. Haga clic en Nuevo activo +.
  2. Elija DataStage.
  3. En la paleta, seleccione la etapa Two-source Match y arrástrela al centro del lienzo.
  4. Añade cuatro etapas de entrada a la paleta. Añada una para cada uno de los orígenes de datos siguientes.
    1. Fuente de datos.
    2. Información de frecuencia para la fuente de datos.
    3. Fuente de referencia.
    4. Información de frecuencia para la fuente de referencia.
    Por lo general, los datos de origen proceden de un archivo o base de datos, pero también se pueden utilizar otras etapas para preprocesarlos antes de introducirlos en la etapa de coincidencia de dos fuentes.
  5. Enlazar las etapas de entrada en el siguiente orden:
    1. Datos
    2. Referencia
    3. Frecuencia de datos
    4. Frecuencia de referencia
  6. Desde la paleta, agregue hasta siete etapas de salida, una para cada una de las opciones de salida que pretenda utilizar en la etapa de coincidencia de dos fuentes.
    La siguiente lista muestra las siete opciones de salida.
    • Coincidencia
    • Administrativo
    • Duplicado de datos
    • Duplicado de referencia
    • Datos no coincidentes
    • Referencia no coincidente
    • Estadísticas de coincidencia
    Para las etapas de salida, puede utilizar cualquier archivo, base de datos o etapa de proceso.
  7. Para las opciones de salida de coincidencia que desea utilizar, enlace las etapas en el orden siguiente.
    1. Coincidencia
    2. Administrativo
    3. Duplicado de datos
    4. Duplicado de referencia
    5. Datos no coincidentes
    6. Referencia no coincidente
    7. Estadísticas de coincidencia
    Nota : Verifique en la sección de pedido de enlaces en la pestaña Entrada y en la pestaña Salida que las etiquetas y los nombres de los enlaces sean correctos.
  8. Haz doble clic en una etapa de entrada.
    1. En la sección Propiedades de la pestaña Salida, en el cuadro de texto Archivo, escriba el nombre del archivo, incluida la ruta, que leerán los datos de entrada.
      Si ha utilizado una etapa distinta de una etapa de archivo para la entrada, seleccione la entrada adecuada y defina las propiedades adicionales que necesita el origen.
    2. En la sección Columnas de la pestaña Salida, haga clic en Editar y, a continuación, seleccione Importar definiciones de datos existentes.
      Cuando seleccione la definición de datos para la entrada de frecuencia, utilice la definición de tabla que se creó cuando se ejecutó el trabajo de coincidencia de frecuencia.
    3. Haga clic en Aplicar y volver, y luego en Guardar.
    4. Repita estos pasos hasta que se hayan configurado todas las etapas de entrada.
  9. Haga doble clic en una etapa de salida.
    1. En la sección Propiedades de la pestaña Entrada, en el cuadro de texto Archivo, introduzca el nombre del archivo en el que se escribirán los datos de salida.
      Si ha utilizado una etapa distinta de una etapa de archivo para la salida, seleccione la salida adecuada y defina las propiedades que necesita el destino.
    2. Haga clic en Aplicar y volver, y luego en Guardar.
    3. Repita estos pasos hasta que se hayan configurado todas las etapas de salida.
  10. Opcional: Cambie el nombre de las etapas y los enlaces por nombres significativos que reflejen sus funciones en el trabajo o proyecto

Configuración de la etapa de comparación de dos fuentes

Después de crear un trabajo que contenga esta etapa, seleccione entre las especificaciones de coincidencia disponibles y otros ajustes que determinan los registros coincidentes en dos fuentes de datos.

  1. Abra el DataStage flujo que contiene la etapa Two-source Match que desea configurar.
  2. Haga doble clic en la etapa de coincidencia de dos fuentes.
  3. En el campo Especificación de coincidencia, haga clic en Examinar y seleccione una especificación de coincidencia de dos fuentes.
  4. Para anular cualquiera de los valores de corte de coincidencia de la especificación de coincidencia que seleccionó, seleccione Anular cortes e introduzca nuevos valores o parámetros de trabajo en las columnas Coincidencia, Clerical o Duplicado.
  5. Para especificar valores específicos de alteración temporal de cortes de coincidencia, pulse el icono de lápiz situado junto a un valor y especifique el nuevo valor. Pulse el icono para tomar una de las opciones siguientes.
    Opción Acción
    Utilice un parámetro de trabajo existente. Seleccione Insertar parámetro y elija un parámetro existente.
    Volver a los valores de corte de coincidencia de la especificación de coincidencia. Seleccione Utilizar especificación de coincidencia.
  6. En la lista desplegable para el tipo de coincidencia, elija un tipo de coincidencia.
  7. En el panel Salidas de coincidencia, seleccione una o más salidas que desee crear. Tenga en cuenta las condiciones siguientes.
    • Cada salida que seleccione debe tener un enlace de salida correspondiente.
    • No se puede enviar ninguna salida a más de un enlace.
  8. Haga clic en Propiedades del escenario.
    1. En la sección de columnas de la pestaña Salida, para cualquier salida, seleccione Editar para modificar las columnas de salida.
  9. Pulse Guardar.

Tipos de correspondencia para la etapa de correspondencia de dos fuentes

Cuando utilice la etapa de comparación de dos fuentes, seleccione uno de los siguientes tipos de comparación.
Muchos a uno
Cualquier registro de fuente de referencia puede coincidir con muchos registros de fuente de datos. Cada registro de fuente de datos solo puede coincidir con un registro de fuente de referencia. Por ejemplo, si 101 Main St. en la fuente de datos coincide con dos registros en la fuente de referencia: 101-199 Main St SW y 101-199 Main St SE, el primer registro de la fuente de referencia es el registro coincidente y el segundo registro de la fuente de referencia no se considera una coincidencia con este registro de la fuente de datos en particular. Es posible que el segundo registro de la fuente de referencia coincida con otro registro de la fuente de datos.
Múltiple de muchos a uno
Cada registro de origen de referencia que tiene el mismo peso que el par coincidente cuando se puntúa con respecto al registro de datos se marca como un registro duplicado. Cualquier registro de una fuente de datos puede coincidir con más de un registro de una fuente de referencia. Por ejemplo, si 101 Main St. en la fuente de datos coincide con dos registros en la fuente de referencia: 101-199 Main St SW y 101-199 Main St SE, , un registro de la fuente de referencia es el registro coincidente y el otro es el duplicado.
Duplicado múltiple
Igual que la opción múltiple de varios a uno, excepto que los registros de fuentes de referencia adicionales que coinciden con un nivel superior al valor de corte de duplicados se marcan como duplicados. Esta funcionalidad significa que los registros con pesos inferiores al peso de coincidencia pueden marcarse como duplicados. Por ejemplo, si 101 Main St en la fuente de datos coincide con tres registros en la fuente de referencia: 101-199 Main St SW, 101-199 Main St SE y 101 Main Rd, obtienes 101-199 Main St SW como coincidencia, y las otras dos direcciones podrían ser duplicadas.
Unívoca
Establece una correspondencia entre un registro en el origen de datos y un solo registro en el origen de referencia. Un registro en la fuente de referencia solo puede coincidir con un registro de fuente de datos.

Emparejar resultados para la etapa de emparejamiento de dos fuentes

Puede enviar registros a diferentes enlaces utilizando una de las siguientes opciones.
  • Coincidencia. Los registros coincidentes para ambas entradas.
  • Administrativo. El registro de revisión administrativa para ambas entradas.
  • Datos duplicados. Los duplicados en la fuente de datos.
  • Referencia Duplicado. Los duplicados en la fuente de referencia.
  • Datos no coincidentes. Los registros no coincidentes de la entrada de datos.
  • Referencia no coincidente. Los registros no coincidentes de la entrada de referencia.
  • Estadísticas de coincidencia. Estadísticas de resumen sobre los resultados coincidentes y las estadísticas sobre el proceso de coincidencia para cada pase de coincidencia.

Utilice la sección Orden de enlaces de la pestaña Salida para asociar las opciones de salida con enlaces de salida específicos. Consulte la sección de pedido de enlaces para asegurarse de que los registros de cada opción de salida que seleccione se envían al enlace deseado.

Si lo desea, puede añadir otras etapas, como la etapa Funnel, para agrupar parte o toda la salida en un único archivo o tabla.

Las columnas que están disponibles para la salida constan de todas las columnas de entrada, además de columnas adicionales creadas por el proceso de coincidencia. Si selecciona la opción de salida Estadísticas de coincidencia, asegúrese de utilizar los nombres predeterminados para las columnas de salida.