0 / 0
Volver a la versión inglesa de la documentación

Etapa One-source Match

Última actualización: 12 mar 2025
Etapa One-source Match en DataStage

La etapa One-source Match coincide con los registros de un único archivo de origen.

Un ejemplo de agrupación de registros podría ser localizar todos los registros que se aplican al mismo individuo, hogar o suceso. Además, puede deduplicar un archivo para agrupar todas las facturas de un cliente o fusionar una lista de correo.

La etapa One-source Match realiza las acciones siguientes.
  • Categoriza todos los registros con ponderaciones mayores que el corte de coincidencia como un conjunto de duplicados.
  • Identifica un registro maestro seleccionando el registro dentro del conjunto que coincide con él mismo con la ponderación más alta. El registro maestro está asociado a su conjunto de duplicados.
  • Determina que los registros que no forman parte de un conjunto de duplicados son registros no coincidentes. Los registros no coincidentes y maestros generalmente están disponibles para el siguiente paso.
  • Excluye duplicados en pases posteriores. Sin embargo, puede elegir el tipo de coincidencia Independiente si desea que se incluyan duplicados en pases posteriores.

El resultado de la etapa de comparación de una fuente puede incluir registros maestros, duplicados mayores que el límite de comparación, duplicados administrativos, registros no coincidentes y estadísticas sobre los resultados del proceso de comparación.

Entradas a la etapa One-source Match

La etapa One-source Match acepta dos enlaces de entrada: uno para los datos de origen y uno de la información de frecuencia para dichos datos. La etapa One-source Match utiliza una especificación de coincidencia de un origen para agrupar y comparar los datos.

Para añadir datos de origen a One-source Match, necesita enlaces de los siguientes orígenes:
  • Los datos en los que desea encontrar coincidencias. Cualquier etapa que genere salida puede ser un origen. Sin embargo, como práctica recomendada, estandarice los datos antes de utilizar la etapa One-source Match.
  • La información de frecuencia para esos datos, tal como la genera la etapa Match Frequency. Puede especificar datos de frecuencia de la etapa Match Frequency como parte del trabajo actual. También puede especificar datos de frecuencia que se han generado a partir de un trabajo de frecuencia de coincidencia ejecutado anteriormente.

Cuando configure la etapa, debe designar una especificación de coincidencia existente de los activos. Esta especificación de coincidencia debe ser del tipo de coincidencia de un origen y estar basada en las definiciones de columna de los datos que está introduciendo en la etapa One-source Match.

La etapa One-source Match coincide y agrupa los datos de entrada basándose en la especificación de coincidencia. El usuario selecciona las columnas de la salida.

Flujo de trabajo de la etapa One-source Match

La etapa One-source Match requiere una especificación de coincidencia de un origen, datos estandarizados e información de frecuencia para procesar los datos de acuerdo con atributos particulares.

Un flujo de trabajo típico para utilizar la etapa One-source Match incluye las tareas siguientes.
  • Estandarizar los datos de origen.
  • Preparar un conjunto de datos de ejemplo representativo de los datos de origen.
  • Utilice la etapa Frecuencia de coincidencia para generar información de frecuencia.
  • Cuando se importa el DataStage® flujo con la etapa relacionada con el partido se importa, las especificaciones relacionadas con el partido también se importan en los activos. Puede utilizar esos archivos de especificación de coincidencia en la etapa One-source Match.
  • Opcional. Si desea reducir la cantidad de datos de frecuencia, puede volver a ejecutar el trabajo de la etapa Frequency Match. Sin embargo, para esta ejecución de trabajo, utilice la especificación de coincidencia que ha creado para la coincidencia de un origen. La utilización de una especificación de coincidencia de un origen limita los datos de frecuencia únicamente a las columnas que participan en el trabajo de coincidencia.
  • Cree un DataStage flujo que incluya la etapa de One-source Match, con los datos de origen y la información de frecuencia como entrada.
  • Configure la etapa One-source Match, que incluye la selección de la especificación de coincidencia de un origen que ha creado.

Creación de trabajos de etapa One-source Match

El trabajo de etapa One-source Match requiere que añada la etapa One-source Match al trabajo y lo vincule a dos etapas de origen y hasta cinco etapas de salida.

Procedimiento

  1. En la paleta, selecciona la etapa One-source Match y arrástrala al centro del lienzo de diseño de DataStage.
  2. En la paleta, añada dos etapas de entrada. Añada una para cada uno de los orígenes de datos siguientes.
    • Origen de datos
    • Información de frecuencia para el origen de datos

    Normalmente, los datos de origen proceden de un archivo o base de datos, pero también puede utilizar otras etapas para preprocesar los datos antes de especificarlos como entrada en la etapa One-source Match.

  3. Enlace las etapas de entrada en el orden siguiente.
    • Datos
    • Frecuencia de datos
  4. En la paleta, añada hasta cinco etapas de salida, una para cada una de las opciones de salida que desea utilizar en la etapa One-source Match.
    La lista siguiente muestra las cinco opciones de salida.
    • Coincidencia
    • Administrativo
    • Duplicar
    • No coincidente
    • Estadísticas de coincidencia
    Para las etapas de salida, puede utilizar cualquier archivo, base de datos o etapa de proceso.
  5. Para las opciones de salida de coincidencia que desea utilizar, enlace las etapas en el orden siguiente.
    1. Coincidencia
    2. Administrativo
    3. Duplicar
    4. No coincidente
    5. Estadísticas de coincidencia
    Nota : Verifique en la sección Pedido de eslabones en la pestaña Entrada y en la pestaña Salida que las etiquetas y los nombres de los eslabones sean correctos.
  6. Efectúe una doble pulsación en una etapa de entrada y luego configúrela.
    1. En la sección Propiedades de la pestaña Salida, en el cuadro de texto para Archivo, escriba el nombre del archivo, incluida la ruta, que leerán los datos de entrada.
      Si ha utilizado una etapa distinta de una etapa de archivo para la entrada, seleccione la entrada adecuada y defina las propiedades adicionales que necesita el origen.
    2. En la sección Columnas de la pestaña Salida, haga clic en Editar y, a continuación, seleccione Importar definiciones de datos existentes. Cuando selecciona la definición de datos para la entrada de frecuencia, utilice la definición de datos que se creó cuando se ejecutó el trabajo de coincidencia de frecuencia.
    3. En la sección Propiedades de la pestaña Entrada, en el cuadro de texto Archivo, introduzca el nombre del archivo en el que se escribirán los datos de salida.
    4. Haga clic en Aplicar y devolver, y luego en Guardar.
    5. Repita estos pasos hasta que se hayan configurado todas las etapas de entrada.
  7. Efectúe una doble pulsación en una etapa de salida y luego configúrela.
    1. En la sección Propiedades de la pestaña Entrada, en el cuadro de texto Archivo, introduzca el nombre del archivo en el que se escribirán los datos de salida.
      Si ha utilizado una etapa distinta de una etapa de archivo para la salida, seleccione la salida adecuada y defina las propiedades que necesita el destino.
    2. Haga clic en Aplicar y devolver, y luego en Guardar.
    3. Repita estos pasos hasta que se hayan configurado todas las etapas de salida.
  8. Opcional: Cambie el nombre de las etapas y los enlaces por nombres significativos que reflejen sus funciones en el trabajo o proyecto

Configuración de la etapa One-source Match

Después de crear un trabajo que contenga esta etapa, seleccione entre las especificaciones de coincidencia disponibles y otros valores que coincidan con los registros de un origen de datos.

  1. Abra el DataStage flujo que contiene la etapa de One-source Match que desea configurar.
  2. Efectúe una doble pulsación en la etapa One-source Match.
  3. En el campo Especificación de coincidencia, pulse Examinar y seleccione una especificación de coincidencia de un origen.
  4. Para alterar temporalmente cualquiera de los valores de corte de coincidencia de la especificación de coincidencia que ha seleccionado, seleccione Alterar temporalmente los cortes de coincidencia, pulse Editar y, a continuación, especifique nuevos valores o parámetros de trabajo en las columnas Coincidencia o Clerical.
  5. Para especificar valores específicos de alteración temporal de cortes de coincidencia, pulse el icono de lápiz situado junto a un valor y especifique el nuevo valor. Pulse el icono para tomar una de las opciones siguientes.
    Opción Acción
    Utilice un parámetro de trabajo existente. Seleccione Insertar parámetro y elija un parámetro existente.
    Volver a los valores de corte de coincidencia de la especificación de coincidencia. Seleccione Utilizar especificación de coincidencia.
  6. En la lista desplegable para el tipo de coincidencia, elija un tipo de coincidencia.
  7. En el panel Salidas de coincidencia, seleccione una o más salidas que desee crear. Tenga en cuenta las condiciones siguientes.
    • Cada salida que seleccione debe tener un enlace de salida correspondiente.
    • No se puede enviar ninguna salida a más de un enlace.
  8. En la sección Columna de la pestaña Salida, para cualquier salida, seleccione Editar para modificar las columnas de salida.
  9. Pulse Guardar.

Tipos de coincidencia para la etapa One-source Match

Cuando utilice la etapa One-source Match, seleccione uno de los siguientes tipos de coincidencia. Para los tipos de emparejamiento de la etapa de emparejamiento de dos fuentes, consulte Tipos de emparejamiento para la etapa de emparejamiento de dos fuentes.
  • Dependiente.

    En una coincidencia dependiente de una fuente, los pases procesan los datos de forma secuencial. En cada pase, los grupos se crean alrededor de registros maestros. Los grupos que se forman en todos los pases para el mismo registro maestro se combinan para crear el grupo final para el maestro.

    Cada registro duplicado de un grupo coincide con el registro maestro de grupo en uno de los pases de coincidencia. Los registros maestros y los registros no coincidentes de un pase están disponibles para el paso posterior. Los duplicados no se tienen en consideración para que no se asignen a más de un grupo. Los registros maestros existentes tienen prioridad en la construcción de grupos en pases posteriores.

  • Independiente.

    Cada pase de una coincidencia independiente de un origen procesa todos los registros de entrada. Al igual que el tipo de coincidencia dependiente de un origen, en cada pase, los grupos se crean alrededor de registros maestros. Pero debido a que cada pase procesa todos los registros, un registro puede ser miembro de un grupo de más de uno de los pases. (Del mismo modo, un registro puede ser un maestro en un grupo que se creó en un pase mientras era un duplicado en un grupo que se creó en otro pase.)

    Los grupos de todos los pases se fusionan para que los grupos que tengan un registro en común formen un solo grupo. Si el registro A está en un grupo con el registro B y el registro B está en un grupo distinto con el registro C, estos dos grupos se fusionan para que los registros A, B y C estén todos en el mismo grupo. (Un registro acaba en no más de un grupo.) Los grupos se fusionan hasta que se fusionan todos los grupos que tienen registros en común. En el nivel de paso, la relación que determina la pertenencia a grupos es la de los registros que coinciden con un registro maestro. Sin embargo, para el proceso de fusión, la relación es de pertenencia a grupo. Por lo tanto, los miembros de un grupo pueden estar conectados por una cadena de relaciones y no necesariamente todos coinciden con un maestro común.

  • Transitiva.

    Al igual que las coincidencias independientes de un origen, cada paso de una coincidencia transitiva de un origen también procesa todos los registros. Pero a diferencia de una coincidencia independiente de un origen, el tipo de coincidencia transitiva de un origen no crea grupos de nivel de paso. En su lugar, todos los pares de registros que puntúan por encima del corte de coincidencia se utilizan para generar los grupos.

    La creación de grupos de nivel de paso descarta la información cuando la puntuación de un par de registros está por encima del corte de coincidencia de un pase si cada registro acaba en un grupo diferente. El tipo de coincidencia transitiva de un origen no descarta esa información. Crea grupos para que todos los registros que puntúan por encima del corte de coincidencia en cualquier pase estén en el mismo grupo. Por ejemplo, si el registro A y el registro B puntúan por encima del corte de coincidencia en un pase y el registro B y el registro C puntúan por encima del corte de coincidencia en un pase (posiblemente el mismo pase), los registros A, B y C se añaden al mismo grupo. (Un registro acaba en no más de un grupo.) Al igual que las coincidencias dependientes de un origen, los miembros de un grupo pueden estar conectados por una cadena de relaciones y no necesariamente todos coinciden con un maestro común. Pero la cadena transitiva de un origen puede extenderse todavía más porque utiliza todos los pares que puntúan por encima del corte de coincidencia.

En la mayoría de los casos, elija el tipo de coincidencia dependiente, porque desea que se eliminen los duplicados para que no coincidan con otros registros en pases posteriores.

Sin embargo, la opción independiente es útil cuando se desea enlazar personas u organizaciones independientemente de la dirección. Por ejemplo, puede enlazar todas las ubicaciones en las que un médico ejerce.

La opción transitiva es útil si desea dar cuenta de la entrada de datos incoherente en los campos que ayudan en la identificación de duplicados, por ejemplo, la fecha de nacimiento y los números de licencia del conductor.

Un ejemplo de proceso para los tipos de coincidencia dependientes e independientes
El ejemplo siguiente muestra cómo utilizar el tipo de coincidencia independiente con la etapa One-source Match. La tabla muestra cuatro registros que describen a la misma persona. Es necesario que todos los registros relacionados con la misma persona coincidan sin tener en cuenta la dirección.
Tabla 1. Cuatro registros que describen a la misma persona
Registro Nombre Dirección Identificador fiscal
1 William Nickson 123 Rodeo Drive 123456789
2 Bill Nixon 123 Rodeo Drive  
3 B Nickson 978 Sunset Blvd. 123456789
4 Nickson 456 Western Ave. 123456789
El proceso de coincidencia que utiliza estos datos arroja resultados diferentes en función del tipo de coincidencia que elija:
  • Dependiente
    • Los primeros bloques de pase y las coincidencias en Nombre y Dirección. Los registros 1 y 2 se consideran un par coincidente. Los registros 3 y 4 se consideran registros no coincidentes.
    • Si el registro 2 (sin la Identificación fiscal) se selecciona como maestro y el registro 1 se considera un duplicado, el registro 1 no está disponible para el segundo pase.
    • Si el segundo pase se bloquea y coincide en Nombre e Identificación fiscal, solo los registros 3 y 4 coinciden. El resultado es dos grupos de registros coincidentes: los registros 1 y 2, y los registros 3 y 4.
  • Independiente
    • Los resultados del primer pase son los mismos que la coincidencia dependiente. Los registros 1 y 2 se consideran un par coincidente. Los registros 3 y 4 se consideran registros no coincidentes.
    • Si el registro 2 (sin la Identificación fiscal) se selecciona como el registro maestro en el segundo pase, el registro duplicado, registro 1, también se compara con el resto de los registros. Cuando se bloquea el Nombre e Identificación fiscal, los registros 1, 3 y 4 coinciden. Dado que el registro 1 coincide con el registro 2 en el primer pase, la salida es un grupo con los cuatro registros enlazados.
Un ejemplo de proceso para los tipos de coincidencia dependientes y transitivos
El ejemplo siguiente muestra cómo utilizar la opción de tipo de coincidencia transitiva con la etapa One-source Match. La tabla muestra seis registros que muestran una diferencia de un día entre registros del mismo nombre de familia. Es necesario que los registros del mismo nombre de familia coincidan si las fechas tienen una diferencia de un día o menos.
Tabla 2. Registros que muestran una diferencia de un día entre registros del mismo nombre de familia
Registro Apellido Fecha Nombre
qsMatch
Tipo
qsMatch
Peso
qsMatch
Número de pase de
qsMatch
SetID
qsMatch
DataID
5 Clifford 19530831 Benn MP 0 1 5 5
7 Clifford 19530829 George Recomendación de expedición 0 1 5 7
6 Clifford 19530830 George Recomendación de expedición 0 1 5 6
8 Clifford 19530731 Thomas MP 0 1 8 8
9 Clifford 19530801 David Recomendación de expedición 0 1 8 9
10 Clifford 19530802 David Recomendación de expedición 0 1 8 10
El proceso de coincidencia que utiliza estos datos arroja resultados diferentes en función del tipo de coincidencia que elija:
  • Dependiente
    • El primer pase se bloquea en Nombre de familia y coincide en Fecha utilizando una tolerancia de fecha de un día. Los registros 5 y 6 se consideran un par coincidente.
    • Si el registro 5 se selecciona como registro maestro, el registro 6 no está disponible para el segundo pase y no hay ninguna otra coincidencia de registros.
  • Transitiva
    • El primer pase se bloquea en Nombre de familia y coincide en Fecha utilizando una tolerancia de fecha de un día. Los registros 5 y 6 se consideran un par coincidente.
    • Si el registro 5 se selecciona como registro maestro, el registro 6 está disponible para pases subsiguientes y se compara con el resto de los registros. Los registros 6 y 7 se consideran un par coincidente. Debido a que el registro 5 coincide con el registro 6 en el primer pase, el resultado es un grupo en el que se enlazan los tres registros. Los registros 5 y 6 coinciden. Los registros 6 y 7 coinciden. Por lo tanto, los registros 5, 6 y 7 están dentro del mismo conjunto de coincidencias.

Salidas de coincidencia para la etapa One-source Match

Seleccione entre las opciones de salida siguientes. La salida de cada opción se dirige a un enlace de salida independiente. Por lo tanto, el número de enlaces de salida corresponde al número de opciones de salida que seleccione.
  • Coincidencia. Los registros maestros.
  • Administrativo. Los duplicados que caen en el rango administrativo.
  • Duplicado. Los registros duplicados que son mayores que el corte de coincidencia.
  • No coincidente. Los registros que no son registros maestros, duplicados o administrativos.
  • Estadísticas de coincidencia. Estadísticas de resumen sobre los resultados coincidentes y las estadísticas sobre el proceso de coincidencia para cada pase de coincidencia.

Utilice la sección Orden de enlaces de la pestaña Salida para asociar las opciones de salida con enlaces de salida específicos. Compruebe la sección Orden de enlaces para asegurarse de que los registros de cada opción de salida que seleccione se direccionen al enlace previsto.

Si lo desea, puede añadir otras etapas, como la etapa Funnel, para agrupar parte o toda la salida en un único archivo o tabla.

Las columnas que están disponibles para la salida constan de todas las columnas de entrada, además de columnas adicionales creadas por el proceso de coincidencia.

La salida no coincidente incluye las columnas siguientes.
  • qsMatchDataID. El ID de registro de datos.
  • qsMatchType. El ID de coincidencia del registro. Uno de los siguientes:
    • MP. Registro maestro.
      • DA. Registro duplicado.
      • CP. Registro que requiere revisión administrativa.
    • RA. Registro no coincidente.
  • qsMatchSetId. El identificador del conjunto de coincidencias.
La salida de coincidencia, administrativa y duplicada incluye las tres columnas anteriores además de las columnas siguientes.
  • qsMatchWeight. El peso.
  • qsMatchPattern. El patrón.
  • qsMatchLRFlag. "L" para la izquierda, "R" para la derecha.
  • qsMatchExactFlag. "X" si la coincidencia es exacta.
  • qsMatchPassNumber. El número del pase donde se ha encontrado la coincidencia.
Si selecciona la opción de salida Estadísticas de coincidencia, asegúrese de utilizar los nombres predeterminados para las columnas de salida. La salida estadística incluye las columnas siguientes:
  • qsMatchPassNumber. El número del pase donde se ha encontrado la coincidencia.
  • qsMatchStatType. El número utilizado para identificar el tipo de estadística.
  • qsMatchStatValue. El valor de una estadística determinada.
  • qsMatchWeight. El peso.