Etapa One-source Match
La etapa One-source Match coincide con los registros de un único archivo de origen.
Un ejemplo de agrupación de registros podría ser localizar todos los registros que se aplican al mismo individuo, hogar o suceso. Además, puede deduplicar un archivo para agrupar todas las facturas de un cliente o fusionar una lista de correo.
- Categoriza todos los registros con ponderaciones mayores que el corte de coincidencia como un conjunto de duplicados.
- Identifica un registro maestro seleccionando el registro dentro del conjunto que coincide con él mismo con la ponderación más alta. El registro maestro está asociado a su conjunto de duplicados.
- Determina que los registros que no forman parte de un conjunto de duplicados son registros no coincidentes. Los registros no coincidentes y maestros generalmente están disponibles para el siguiente paso.
- Excluye duplicados en pases posteriores. Sin embargo, puede elegir el tipo de coincidencia Independiente si desea que se incluyan duplicados en pases posteriores.
El resultado de la etapa de comparación de una fuente puede incluir registros maestros, duplicados mayores que el límite de comparación, duplicados administrativos, registros no coincidentes y estadísticas sobre los resultados del proceso de comparación.
Entradas a la etapa One-source Match
La etapa One-source Match acepta dos enlaces de entrada: uno para los datos de origen y uno de la información de frecuencia para dichos datos. La etapa One-source Match utiliza una especificación de coincidencia de un origen para agrupar y comparar los datos.
- Los datos en los que desea encontrar coincidencias. Cualquier etapa que genere salida puede ser un origen. Sin embargo, como práctica recomendada, estandarice los datos antes de utilizar la etapa One-source Match.
- La información de frecuencia para esos datos, tal como la genera la etapa Match Frequency. Puede especificar datos de frecuencia de la etapa Match Frequency como parte del trabajo actual. También puede especificar datos de frecuencia que se han generado a partir de un trabajo de frecuencia de coincidencia ejecutado anteriormente.
Cuando configure la etapa, debe designar una especificación de coincidencia existente de los activos. Esta especificación de coincidencia debe ser del tipo de coincidencia de un origen y estar basada en las definiciones de columna de los datos que está introduciendo en la etapa One-source Match.
La etapa One-source Match coincide y agrupa los datos de entrada basándose en la especificación de coincidencia. El usuario selecciona las columnas de la salida.
Flujo de trabajo de la etapa One-source Match
La etapa One-source Match requiere una especificación de coincidencia de un origen, datos estandarizados e información de frecuencia para procesar los datos de acuerdo con atributos particulares.
- Estandarizar los datos de origen.
- Preparar un conjunto de datos de ejemplo representativo de los datos de origen.
- Utilice la etapa Frecuencia de coincidencia para generar información de frecuencia.
- Cuando se importa el DataStage® flujo con la etapa relacionada con el partido se importa, las especificaciones relacionadas con el partido también se importan en los activos. Puede utilizar esos archivos de especificación de coincidencia en la etapa One-source Match.
- Opcional. Si desea reducir la cantidad de datos de frecuencia, puede volver a ejecutar el trabajo de la etapa Frequency Match. Sin embargo, para esta ejecución de trabajo, utilice la especificación de coincidencia que ha creado para la coincidencia de un origen. La utilización de una especificación de coincidencia de un origen limita los datos de frecuencia únicamente a las columnas que participan en el trabajo de coincidencia.
- Cree un DataStage flujo que incluya la etapa de One-source Match, con los datos de origen y la información de frecuencia como entrada.
- Configure la etapa One-source Match, que incluye la selección de la especificación de coincidencia de un origen que ha creado.
Creación de trabajos de etapa One-source Match
El trabajo de etapa One-source Match requiere que añada la etapa One-source Match al trabajo y lo vincule a dos etapas de origen y hasta cinco etapas de salida.
Procedimiento
Configuración de la etapa One-source Match
Después de crear un trabajo que contenga esta etapa, seleccione entre las especificaciones de coincidencia disponibles y otros valores que coincidan con los registros de un origen de datos.
- Abra el DataStage flujo que contiene la etapa de One-source Match que desea configurar.
- Efectúe una doble pulsación en la etapa One-source Match.
- En el campo Especificación de coincidencia, pulse Examinar y seleccione una especificación de coincidencia de un origen.
- Para alterar temporalmente cualquiera de los valores de corte de coincidencia de la especificación de coincidencia que ha seleccionado, seleccione Alterar temporalmente los cortes de coincidencia, pulse Editar y, a continuación, especifique nuevos valores o parámetros de trabajo en las columnas Coincidencia o Clerical.
- Para especificar valores específicos de alteración temporal de cortes de coincidencia, pulse el icono de lápiz situado junto a un valor y especifique el nuevo valor. Pulse el icono ⋮ para tomar una de las opciones siguientes.
Opción Acción Utilice un parámetro de trabajo existente. Seleccione Insertar parámetro y elija un parámetro existente. Volver a los valores de corte de coincidencia de la especificación de coincidencia. Seleccione Utilizar especificación de coincidencia. - En la lista desplegable para el tipo de coincidencia, elija un tipo de coincidencia.
- En el panel Salidas de coincidencia, seleccione una o más salidas que desee crear. Tenga en cuenta las condiciones siguientes.
- Cada salida que seleccione debe tener un enlace de salida correspondiente.
- No se puede enviar ninguna salida a más de un enlace.
- En la sección Columna de la pestaña Salida, para cualquier salida, seleccione Editar para modificar las columnas de salida.
- Pulse Guardar.
Tipos de coincidencia para la etapa One-source Match
- Dependiente.
En una coincidencia dependiente de una fuente, los pases procesan los datos de forma secuencial. En cada pase, los grupos se crean alrededor de registros maestros. Los grupos que se forman en todos los pases para el mismo registro maestro se combinan para crear el grupo final para el maestro.
Cada registro duplicado de un grupo coincide con el registro maestro de grupo en uno de los pases de coincidencia. Los registros maestros y los registros no coincidentes de un pase están disponibles para el paso posterior. Los duplicados no se tienen en consideración para que no se asignen a más de un grupo. Los registros maestros existentes tienen prioridad en la construcción de grupos en pases posteriores.
- Independiente.
Cada pase de una coincidencia independiente de un origen procesa todos los registros de entrada. Al igual que el tipo de coincidencia dependiente de un origen, en cada pase, los grupos se crean alrededor de registros maestros. Pero debido a que cada pase procesa todos los registros, un registro puede ser miembro de un grupo de más de uno de los pases. (Del mismo modo, un registro puede ser un maestro en un grupo que se creó en un pase mientras era un duplicado en un grupo que se creó en otro pase.)
Los grupos de todos los pases se fusionan para que los grupos que tengan un registro en común formen un solo grupo. Si el registro A está en un grupo con el registro B y el registro B está en un grupo distinto con el registro C, estos dos grupos se fusionan para que los registros A, B y C estén todos en el mismo grupo. (Un registro acaba en no más de un grupo.) Los grupos se fusionan hasta que se fusionan todos los grupos que tienen registros en común. En el nivel de paso, la relación que determina la pertenencia a grupos es la de los registros que coinciden con un registro maestro. Sin embargo, para el proceso de fusión, la relación es de pertenencia a grupo. Por lo tanto, los miembros de un grupo pueden estar conectados por una cadena de relaciones y no necesariamente todos coinciden con un maestro común.
- Transitiva.
Al igual que las coincidencias independientes de un origen, cada paso de una coincidencia transitiva de un origen también procesa todos los registros. Pero a diferencia de una coincidencia independiente de un origen, el tipo de coincidencia transitiva de un origen no crea grupos de nivel de paso. En su lugar, todos los pares de registros que puntúan por encima del corte de coincidencia se utilizan para generar los grupos.
La creación de grupos de nivel de paso descarta la información cuando la puntuación de un par de registros está por encima del corte de coincidencia de un pase si cada registro acaba en un grupo diferente. El tipo de coincidencia transitiva de un origen no descarta esa información. Crea grupos para que todos los registros que puntúan por encima del corte de coincidencia en cualquier pase estén en el mismo grupo. Por ejemplo, si el registro A y el registro B puntúan por encima del corte de coincidencia en un pase y el registro B y el registro C puntúan por encima del corte de coincidencia en un pase (posiblemente el mismo pase), los registros A, B y C se añaden al mismo grupo. (Un registro acaba en no más de un grupo.) Al igual que las coincidencias dependientes de un origen, los miembros de un grupo pueden estar conectados por una cadena de relaciones y no necesariamente todos coinciden con un maestro común. Pero la cadena transitiva de un origen puede extenderse todavía más porque utiliza todos los pares que puntúan por encima del corte de coincidencia.
En la mayoría de los casos, elija el tipo de coincidencia dependiente, porque desea que se eliminen los duplicados para que no coincidan con otros registros en pases posteriores.
Sin embargo, la opción independiente es útil cuando se desea enlazar personas u organizaciones independientemente de la dirección. Por ejemplo, puede enlazar todas las ubicaciones en las que un médico ejerce.
La opción transitiva es útil si desea dar cuenta de la entrada de datos incoherente en los campos que ayudan en la identificación de duplicados, por ejemplo, la fecha de nacimiento y los números de licencia del conductor.
- Un ejemplo de proceso para los tipos de coincidencia dependientes e independientes
- El ejemplo siguiente muestra cómo utilizar el tipo de coincidencia independiente con la etapa One-source Match. La tabla muestra cuatro registros que describen a la misma persona. Es necesario que todos los registros relacionados con la misma persona coincidan sin tener en cuenta la dirección.
Tabla 1. Cuatro registros que describen a la misma persona Registro Nombre Dirección Identificador fiscal 1 William Nickson 123 Rodeo Drive 123456789 2 Bill Nixon 123 Rodeo Drive 3 B Nickson 978 Sunset Blvd. 123456789 4 Nickson 456 Western Ave. 123456789 El proceso de coincidencia que utiliza estos datos arroja resultados diferentes en función del tipo de coincidencia que elija:- Dependiente
- Los primeros bloques de pase y las coincidencias en Nombre y Dirección. Los registros 1 y 2 se consideran un par coincidente. Los registros 3 y 4 se consideran registros no coincidentes.
- Si el registro 2 (sin la Identificación fiscal) se selecciona como maestro y el registro 1 se considera un duplicado, el registro 1 no está disponible para el segundo pase.
- Si el segundo pase se bloquea y coincide en Nombre e Identificación fiscal, solo los registros 3 y 4 coinciden. El resultado es dos grupos de registros coincidentes: los registros 1 y 2, y los registros 3 y 4.
- Independiente
- Los resultados del primer pase son los mismos que la coincidencia dependiente. Los registros 1 y 2 se consideran un par coincidente. Los registros 3 y 4 se consideran registros no coincidentes.
- Si el registro 2 (sin la Identificación fiscal) se selecciona como el registro maestro en el segundo pase, el registro duplicado, registro 1, también se compara con el resto de los registros. Cuando se bloquea el Nombre e Identificación fiscal, los registros 1, 3 y 4 coinciden. Dado que el registro 1 coincide con el registro 2 en el primer pase, la salida es un grupo con los cuatro registros enlazados.
- Dependiente
- Un ejemplo de proceso para los tipos de coincidencia dependientes y transitivos
- El ejemplo siguiente muestra cómo utilizar la opción de tipo de coincidencia transitiva con la etapa One-source Match. La tabla muestra seis registros que muestran una diferencia de un día entre registros del mismo nombre de familia. Es necesario que los registros del mismo nombre de familia coincidan si las fechas tienen una diferencia de un día o menos.
Tabla 2. Registros que muestran una diferencia de un día entre registros del mismo nombre de familia Registro Apellido Fecha Nombre qsMatch
TipoqsMatch
PesoqsMatch
Número de pase de
qsMatch
SetIDqsMatch
DataID5 Clifford 19530831 Benn MP 0 1 5 5 7 Clifford 19530829 George Recomendación de expedición 0 1 5 7 6 Clifford 19530830 George Recomendación de expedición 0 1 5 6 8 Clifford 19530731 Thomas MP 0 1 8 8 9 Clifford 19530801 David Recomendación de expedición 0 1 8 9 10 Clifford 19530802 David Recomendación de expedición 0 1 8 10 El proceso de coincidencia que utiliza estos datos arroja resultados diferentes en función del tipo de coincidencia que elija:- Dependiente
- El primer pase se bloquea en Nombre de familia y coincide en Fecha utilizando una tolerancia de fecha de un día. Los registros 5 y 6 se consideran un par coincidente.
- Si el registro 5 se selecciona como registro maestro, el registro 6 no está disponible para el segundo pase y no hay ninguna otra coincidencia de registros.
- Transitiva
- El primer pase se bloquea en Nombre de familia y coincide en Fecha utilizando una tolerancia de fecha de un día. Los registros 5 y 6 se consideran un par coincidente.
- Si el registro 5 se selecciona como registro maestro, el registro 6 está disponible para pases subsiguientes y se compara con el resto de los registros. Los registros 6 y 7 se consideran un par coincidente. Debido a que el registro 5 coincide con el registro 6 en el primer pase, el resultado es un grupo en el que se enlazan los tres registros. Los registros 5 y 6 coinciden. Los registros 6 y 7 coinciden. Por lo tanto, los registros 5, 6 y 7 están dentro del mismo conjunto de coincidencias.
- Dependiente
Salidas de coincidencia para la etapa One-source Match
- Coincidencia. Los registros maestros.
- Administrativo. Los duplicados que caen en el rango administrativo.
- Duplicado. Los registros duplicados que son mayores que el corte de coincidencia.
- No coincidente. Los registros que no son registros maestros, duplicados o administrativos.
- Estadísticas de coincidencia. Estadísticas de resumen sobre los resultados coincidentes y las estadísticas sobre el proceso de coincidencia para cada pase de coincidencia.
Utilice la sección Orden de enlaces de la pestaña Salida para asociar las opciones de salida con enlaces de salida específicos. Compruebe la sección Orden de enlaces para asegurarse de que los registros de cada opción de salida que seleccione se direccionen al enlace previsto.
Si lo desea, puede añadir otras etapas, como la etapa Funnel, para agrupar parte o toda la salida en un único archivo o tabla.
Las columnas que están disponibles para la salida constan de todas las columnas de entrada, además de columnas adicionales creadas por el proceso de coincidencia.
- qsMatchDataID. El ID de registro de datos.
- qsMatchType. El ID de coincidencia del registro. Uno de los siguientes:
- MP. Registro maestro.
- DA. Registro duplicado.
- CP. Registro que requiere revisión administrativa.
- RA. Registro no coincidente.
- MP. Registro maestro.
- qsMatchSetId. El identificador del conjunto de coincidencias.
- qsMatchWeight. El peso.
- qsMatchPattern. El patrón.
- qsMatchLRFlag. "L" para la izquierda, "R" para la derecha.
- qsMatchExactFlag. "X" si la coincidencia es exacta.
- qsMatchPassNumber. El número del pase donde se ha encontrado la coincidencia.
- qsMatchPassNumber. El número del pase donde se ha encontrado la coincidencia.
- qsMatchStatType. El número utilizado para identificar el tipo de estadística.
- qsMatchStatValue. El valor de una estadística determinada.
- qsMatchWeight. El peso.