Etapa de comparación de dos fuentes
La etapa de comparación de dos fuentes compara dos fuentes de datos de entrada (registros de referencia y registros de datos) para encontrar coincidencias.
- Una fuente de datos
- Información de frecuencia sobre la fuente de datos, generada por la etapa de Frecuencia de coincidencia
- Una fuente de referencia
- Información de frecuencia sobre la fuente de referencia, generada por la etapa de Frecuencia de coincidencia
Entradas a la etapa de coincidencia de dos fuentes
La etapa de coincidencia de dos fuentes requiere cuatro fuentes de entrada. Los datos y las fuentes de referencia pueden proceder de cualquier base de datos paralela, archivo o fase de procesamiento.
- Origen de datos
- Origen de referencia
- Información de frecuencia sobre los datos y la fuente de referencia, generada por la etapa de Frecuencia de coincidencia. Puede especificar datos de frecuencia de la etapa Match Frequency como parte del trabajo actual. También puede introducir datos de frecuencia que se hayan obtenido de un trabajo de Frecuencia de coincidencia ejecutado anteriormente.
Cuando configure la etapa, designe una especificación de coincidencia de dos fuentes existente de los activos basada en las definiciones de columna de las fuentes de datos y referencia.
La etapa de comparación de dos fuentes compara y agrupa los datos de entrada en función de la especificación de comparación. Usted selecciona las columnas que desea mostrar.
Flujo de trabajo de la etapa de correspondencia de dos fuentes
La etapa de coincidencia de dos fuentes requiere datos estandarizados y datos de referencia como datos de origen, una especificación de coincidencia de dos fuentes e información de frecuencia para ambas fuentes.
- Estandarizar los datos de origen para la fuente de datos y la fuente de referencia.
- Preparar conjuntos de datos de muestra representativos a partir de los datos de origen.
- Utilice la etapa Frecuencia de coincidencia para generar información de frecuencia.
- Opcional. Si desea reducir la cantidad de datos de frecuencia que se utilizarán en el trabajo de coincidencia de dos fuentes, puede ejecutar de nuevo el trabajo de etapa de coincidencia de frecuencia. Sin embargo, para esta ejecución de trabajo, seleccione la especificación de coincidencia de dos fuentes que creó. Al seleccionar la especificación de coincidencia de dos fuentes en el trabajo de la etapa de coincidencia de frecuencia, los datos de frecuencia se limitan únicamente a las columnas que participarán en el trabajo de coincidencia.
- Cree un DataStage® activo que incluya la etapa de coincidencia de dos fuentes, con la fuente de datos, la fuente de referencia y la información de frecuencia de cada fuente como entradas.
- Configure la etapa de correspondencia de dos fuentes, que incluye la selección de la especificación de correspondencia de dos fuentes que ha creado.
Creación de trabajos de etapa de coincidencia de dos fuentes
Un trabajo de etapa de correspondencia de dos fuentes requiere que añada la etapa de correspondencia de dos fuentes al trabajo y la vincule a las fuentes de datos y de referencia y a las etapas de salida.
Procedimiento
Configuración de la etapa de comparación de dos fuentes
Después de crear un trabajo que contenga esta etapa, seleccione entre las especificaciones de coincidencia disponibles y otros ajustes que determinan los registros coincidentes en dos fuentes de datos.
- Abra el DataStage flujo que contiene la etapa Two-source Match que desea configurar.
- Haga doble clic en la etapa de coincidencia de dos fuentes.
- En el campo Especificación de coincidencia, haga clic en Examinar y seleccione una especificación de coincidencia de dos fuentes.
- Para anular cualquiera de los valores de corte de coincidencia de la especificación de coincidencia que seleccionó, seleccione Anular cortes e introduzca nuevos valores o parámetros de trabajo en las columnas Coincidencia, Clerical o Duplicado.
- Para especificar valores específicos de alteración temporal de cortes de coincidencia, pulse el icono de lápiz situado junto a un valor y especifique el nuevo valor. Pulse el icono ⋮ para tomar una de las opciones siguientes.
Opción Acción Utilice un parámetro de trabajo existente. Seleccione Insertar parámetro y elija un parámetro existente. Volver a los valores de corte de coincidencia de la especificación de coincidencia. Seleccione Utilizar especificación de coincidencia. - En la lista desplegable para el tipo de coincidencia, elija un tipo de coincidencia.
- En el panel Salidas de coincidencia, seleccione una o más salidas que desee crear. Tenga en cuenta las condiciones siguientes.
- Cada salida que seleccione debe tener un enlace de salida correspondiente.
- No se puede enviar ninguna salida a más de un enlace.
- Haga clic en Propiedades del escenario.
- En la sección de columnas de la pestaña Salida, para cualquier salida, seleccione Editar para modificar las columnas de salida.
- Pulse Guardar.
Tipos de correspondencia para la etapa de correspondencia de dos fuentes
- Muchos a uno
- Cualquier registro de fuente de referencia puede coincidir con muchos registros de fuente de datos. Cada registro de fuente de datos solo puede coincidir con un registro de fuente de referencia. Por ejemplo, si
101 Main St.
en la fuente de datos coincide con dos registros en la fuente de referencia:101-199 Main St SW
y101-199 Main St SE
, el primer registro de la fuente de referencia es el registro coincidente y el segundo registro de la fuente de referencia no se considera una coincidencia con este registro de la fuente de datos en particular. Es posible que el segundo registro de la fuente de referencia coincida con otro registro de la fuente de datos. - Múltiple de muchos a uno
- Cada registro de origen de referencia que tiene el mismo peso que el par coincidente cuando se puntúa con respecto al registro de datos se marca como un registro duplicado. Cualquier registro de una fuente de datos puede coincidir con más de un registro de una fuente de referencia. Por ejemplo, si
101 Main St.
en la fuente de datos coincide con dos registros en la fuente de referencia:101-199 Main St SW
y101-199 Main St SE,
, un registro de la fuente de referencia es el registro coincidente y el otro es el duplicado. - Duplicado múltiple
- Igual que la opción múltiple de varios a uno, excepto que los registros de fuentes de referencia adicionales que coinciden con un nivel superior al valor de corte de duplicados se marcan como duplicados. Esta funcionalidad significa que los registros con pesos inferiores al peso de coincidencia pueden marcarse como duplicados. Por ejemplo, si
101 Main St
en la fuente de datos coincide con tres registros en la fuente de referencia:101-199 Main St SW
,101-199 Main St SE
y101 Main Rd
, obtienes101-199 Main St SW
como coincidencia, y las otras dos direcciones podrían ser duplicadas. - Unívoca
- Establece una correspondencia entre un registro en el origen de datos y un solo registro en el origen de referencia. Un registro en la fuente de referencia solo puede coincidir con un registro de fuente de datos.
Emparejar resultados para la etapa de emparejamiento de dos fuentes
- Coincidencia. Los registros coincidentes para ambas entradas.
- Administrativo. El registro de revisión administrativa para ambas entradas.
- Datos duplicados. Los duplicados en la fuente de datos.
- Referencia Duplicado. Los duplicados en la fuente de referencia.
- Datos no coincidentes. Los registros no coincidentes de la entrada de datos.
- Referencia no coincidente. Los registros no coincidentes de la entrada de referencia.
- Estadísticas de coincidencia. Estadísticas de resumen sobre los resultados coincidentes y las estadísticas sobre el proceso de coincidencia para cada pase de coincidencia.
Utilice la sección Orden de enlaces de la pestaña Salida para asociar las opciones de salida con enlaces de salida específicos. Consulte la sección de pedido de enlaces para asegurarse de que los registros de cada opción de salida que seleccione se envían al enlace deseado.
Si lo desea, puede añadir otras etapas, como la etapa Funnel, para agrupar parte o toda la salida en un único archivo o tabla.
Las columnas que están disponibles para la salida constan de todas las columnas de entrada, además de columnas adicionales creadas por el proceso de coincidencia. Si selecciona la opción de salida Estadísticas de coincidencia, asegúrese de utilizar los nombres predeterminados para las columnas de salida.