IBM Match 360 with Watson incluye herramientas que los usuarios ingenieros de datos pueden utilizar para ajustar y personalizar el algoritmo de coincidencia. Cuando ajusta el algoritmo, puede controlar el modo en que IBM Match 360 ejecuta la coincidencia de datos para crear entidades de datos maestros.
- Permisos necesarios
- Para configurar una instancia de datos maestros, debe ser miembro del grupo de usuarios DataEngineer para el servicio IBM Match 360 .
Hay cuatro partes clave para configurar y ajustar el algoritmo:
Selección de atributos coincidentes. Si elige los atributos del modelo de datos que se comparan durante el proceso de coincidencia, puede indicar a IBM Match 360 with Watson qué puntos de datos se consideran más importantes para su algoritmo. Es importante elegir atributos que sean fuertes diferenciadores. Los identificadores exclusivos, como los números de carnet de conducir son excelentes atributos de coincidencia. Debe seleccionar atributos coincidentes antes de ejecutar la coincidencia por primera vez.
Solicitud y finalización de revisiones de pares. Solicite una revisión de pares para generar recomendaciones de ajuste inteligentes que optimicen las ponderaciones y los umbrales coincidentes del algoritmo de coincidencia. Durante una revisión de pares, un encargado de datos compara pares de registros para determinar si son una coincidencia, tal vez una coincidencia, o no una coincidencia. Las respuestas del encargado de datos informan de las recomendaciones de ajuste resultantes.
Aplicación de recomendaciones de ajuste. Una vez completada una tarea de revisión de pares, un ingeniero de datos puede decidir si aplica las recomendaciones de ajuste.
Definición de umbrales de autoenlace y revisión administrativa. Si acepta recomendaciones de ajuste de revisiones de pares, el enlace automático y los umbrales administrativos se determinan automáticamente, pero siempre puede alterar temporalmente los umbrales manualmente si es necesario. Cada comparación de coincidencia de registro a registro que IBM Match 360 completa genera una puntuación coincidente. Esta puntuación se puede tomar como un valor de porcentaje de 0 a 100, siendo 0 una no coincidencia definida y 100 una coincidencia definida. Como parte de la configuración del algoritmo de coincidencia, un ingeniero de datos puede definir dos valores de umbral:
El umbral de enlace automático define la puntuación de coincidencia mínima para que el algoritmo tome una decisión de coincidencia automática entre dos registros cualesquiera.
- Si el umbral de enlace automático es bajo, tendrá más coincidencias generales, con probablemente más coincidencias de falsos positivos.
- Si el umbral de enlace automático es alto, tendrá menos coincidencias generales y más entidades singleton (constituidas sólo por un único registro de miembro), con probablemente más no coincidencias negativas falsas.
El umbral de revisión administrativa define la puntuación de coincidencia mínima para una coincidencia potencial. Las puntuaciones por debajo del umbral de revisión administrativa se consideran no coincidencias. Las puntuaciones que se encuentran en el rango entre el umbral de revisión administrativa y el umbral de enlace automático se pueden enviar a través del flujo de trabajo de coincidencias potenciales para que las remedie un usuario encargado de datos.
Importante: Si el rango administrativo no está habilitado en los valores coincidentes, el flujo de trabajo de coincidencias potenciales no puede generar ninguna tarea. Para obtener información sobre el flujo de trabajo de coincidencias potenciales, consulte [Configuración de flujos de trabajo de datos maestros] (m360-config-workflow.html).
Para obtener información sobre los procedimientos avanzados de ajuste de algoritmos que utilizan la API REST IBM Match 360 , consulte Ajuste avanzado de algoritmos de coincidencia.
Contenido de este tema:
- Preparación para ajustar el algoritmo de coincidencia
- Selección de atributos coincidentes
- Solicitud de revisiones de pares y aplicación de recomendaciones de ajuste
- Cambio manual de los umbrales de autoenlace y revisión administrativa
Preparación para ajustar el algoritmo de coincidencia
Si aún no ha ejecutado la coincidencia en los datos, en primer lugar, debe seleccionar los atributos coincidentes antes de ejecutar la coincidencia. Más adelante, puede cambiar las selecciones si es necesario.
No puede cambiar la sensibilidad de umbral de enlace automático o solicitar revisiones de pares hasta después de ejecutar la coincidencia al menos una vez. Esta restricción garantiza que dispone de alguna base de comparación para cambiar el umbral de la sensibilidad predeterminada. Por ejemplo, si detecta demasiadas coincidencias positivas falsas en sus datos, puede aumentar la sensibilidad. Si hay demasiados registros singleton, puede reducir la sensibilidad.
Antes de modificar los valores de algoritmo coincidentes, considere la posibilidad de crear una nueva instantánea de configuración para guardar los valores actuales. Tener una instantánea hará que sea más fácil revertir a la configuración anterior más adelante si no está satisfecho con los resultados de los cambios. Para obtener información sobre la creación de instantáneas, consulte Guardar y cargar valores de configuración de datos maestros utilizando instantáneas.
Selección de atributos coincidentes
Para seleccionar los atributos que IBM Match 360 utiliza en el algoritmo de coincidencia:
En el menú de navegación Datos maestros, haga clic en Configuración de coincidencias ' .
Seleccione el tipo de entidad cuyo algoritmo de concordancia desea ajustar.
Vaya a la pestaña Valores de coincidencia y seleccione Selección de atributo en la barra lateral para seleccionar los atributos a utilizar en los datos coincidentes. La primera vez que vaya a esta pestaña, IBM Match 360 generará automáticamente algunos atributos sugeridos de su modelo de datos para utilizarlos en la coincidencia.
Revise la lista de atributos de coincidencia y sus campos de componente. Estos atributos y campos se utilizarán como base de comparación para comparar registros y crear entidades de datos maestros. Para añadir o eliminar atributos de la lista, pulse Editar atributos y, a continuación, seleccione o deseleccione los atributos y sus campos de componente según sea necesario.
A la hora de elegir los atributos coincidentes, utilice el indicador Intensidad de coincidencia para ver una estimación de cómo afectan los cambios al algoritmo de coincidencia.
Si ha añadido atributos personalizados al modelo de datos, no se seleccionan para tenerlos en cuenta para la coincidencia de forma predeterminada. Si desea utilizar un tipo de atributo personalizado en la coincidencia, debe seleccionarlo y, a continuación, especificar cuáles de sus campos se deben tener en cuenta. Si no especifica ningún campo, el algoritmo de coincidencia no puede utilizar el atributo.
Para los tipos de atributos no personalizados (predefinidos), si no especifica qué campos debe tener en cuenta, el algoritmo de coincidencia utiliza un conjunto predeterminado de campos.
Cuando esté satisfecho con los cambios de los atributos de coincidencia, pulse Guardar.
Vuelva a generar las entidades coincidentes basándose en los valores actualizados. Haga clic en el icono de coincidencia de ejecución " " de la barra de acciones.
El proceso de coincidencia tardará un rato en completarse. Se ejecutará en segundo plano para que pueda seguir trabajando. Se le notificará cuando se haya completado y, a continuación, podrá revisar los detalles de los resultados en la pestaña Resultados de la coincidencia.
Solicitud de revisiones de pares y aplicación de recomendaciones de ajuste
Utilice revisiones de pares para ajustar el algoritmo de coincidencia. Cada organización tiene diferentes niveles de tolerancia al riesgo para coincidencias falsas, y las revisiones de pares pueden ayudarle a determinar los valores de coincidencia correctos para usted.
Los ingenieros de datos pueden solicitar que un encargado de datos realice revisiones de pares y, a continuación, decidir si aceptan las recomendaciones de ajuste resultantes.
Para solicitar una revisión de par:
En el menú de navegación Datos maestros, haga clic en Configuración de coincidencias ' .
Seleccione el tipo de entidad cuyo algoritmo de concordancia desea ajustar.
Seleccione Ajuste de algoritmos en la barra lateral para acceder a las herramientas de ajuste de algoritmos.
En la sección Revisión de par , pulse Solicitar revisión de par.
Elija el número de pares de registros que deben revisarse como parte de esta tarea. La revisión de más pares dará como resultado mejores recomendaciones de ajuste. Si se revisan muy pocos pares, IBM Match 360 no podrá generar recomendaciones.
Nota: es posible que el número real de pares generados no coincida con el número definido en este paso. El número de pares de registros generados depende de la cantidad de datos disponibles en el sistema y de otros factores.Pulse Enviar solicitud.
IBM Match 360 empieza a generar los pares de registros y a crear la tarea de revisión de pares. La sección Ajuste de algoritmos le mantiene informado del estado de la revisión (Generación de pares o Revisión en curso) y también realiza un seguimiento del progreso de la tarea de revisión actual.
Para obtener información sobre cómo completar una tarea de revisión de pares como usuario encargado de datos, consulte Completar revisiones de pares.
Para revisar y aplicar las recomendaciones de ajuste generadas por una revisión de pares:
En el menú de navegación Datos maestros, haga clic en Configuración de coincidencias ' .
Seleccione el tipo de entidad cuyo algoritmo de concordancia desea ajustar.
Seleccione Ajuste de algoritmos en la barra lateral para acceder a las herramientas de ajuste de algoritmos.
En la sección Revisión de par , revise el progreso de la última tarea de revisión de par. Puede ver el número total de pares revisados y los números de pares que se han determinado como coincidencias, no coincidencias o coincidencias inciertas.
En la sección Umbrales , revise los valores de algoritmo de coincidencia actuales, así como las estimaciones de las tasas de falsos positivos y falsos negativos actuales.
Si se han completado muy pocas revisiones de pares o si la coincidencia todavía no se ha ejecutado, las tasas de falsos positivos y falsos negativos no se pueden visualizar.
Expanda la sección Recomendación de umbral .
Revise las actualizaciones recomendadas para los valores de algoritmo de coincidencia. La recomendación representa el umbral con las tasas más bajas de falsos positivos y falsos negativos, basándose en los pares revisados.
Si desea utilizar los valores recomendados, pulse Aplicar recomendación. La aplicación de la recomendación cambiará la sensibilidad del enlace automático y las ponderaciones coincidentes asociadas de cada atributo.
Vuelva a generar las entidades coincidentes basándose en los valores actualizados. Vaya a la pestaña Resultados de coincidencia y, a continuación, haga clic en el icono de coincidencia de ejecución " " de la barra de acciones.
El proceso de coincidencia tardará un rato en completarse. Se ejecutará en segundo plano para que pueda seguir trabajando. Se le notificará cuando se haya completado y, a continuación, podrá revisar los detalles de los resultados en la pestaña Resultados de la coincidencia.
Cambio manual de los umbrales de revisión automática y administrativa
Si no utiliza revisiones de pares para generar recomendaciones, encontrar el enlace automático correcto y la sensibilidad de revisión clerical para sus necesidades podría tomar algún ensayo y error. En función de los requisitos particulares de su organización, es posible que tenga que repetir el proceso de ajustar la sensibilidad y volver a comparar los datos más de una vez.
El umbral de enlace automático total se calcula multiplicando la sensibilidad del enlace automático (0-100) por la puntuación de coincidencia máxima posible, que se determina en función de los atributos de coincidencia seleccionados y sus ponderaciones máximas en el algoritmo.
Para cambiar manualmente la sensibilidad de los umbrales de revisión administrativa y de enlace automático del alogrithm coincidente:
- En el menú de navegación Datos maestros, haga clic en Configuración de coincidencias ' .
- Seleccione el tipo de entidad cuyo algoritmo de concordancia desea ajustar.
- Seleccione Ajuste de algoritmos en la barra lateral para acceder a las herramientas de ajuste de algoritmos.
- Revise los valores actuales en la sección Umbrales .
- Utilice el control deslizante o los valores de número de tipo para actualizar los umbrales de autoenlace y revisión administrativa y, a continuación, pulse Aplicar umbral. Se le solicitará que ejecute la coincidencia para aplicar los cambios de algoritmo.
- Opcionalmente, puede inhabilitar el rango de revisión administrativa utilizando el conmutador Rango administrativo . Si el rango clerical está inhabilitado, el algoritmo sólo puede tomar decisiones de coincidencia o sin coincidencia, y no puede poner en cola ninguna tarea de coincidencia potencial para que los encargados de datos la remedien.
- Vuelva a generar las entidades coincidentes basándose en los valores actualizados. Vaya a la pestaña Resultados de coincidencia y, a continuación, haga clic en el icono de coincidencia de ejecución " " de la barra de acciones.
El proceso de coincidencia tardará un rato en completarse. Se ejecutará en segundo plano para que pueda seguir trabajando. Se le notificará cuando se haya completado y, a continuación, podrá revisar los detalles de los resultados en la pestaña Resultados de la coincidencia.
Próximos pasos
Más información
- Algoritmos de coincidencia de IBM Match 360 with Watson
- Exploración de datos maestros
- Gestión de datos maestros
Tema principal: Configuración de datos maestros