Configuración de los parámetros de salida de las reglas de calidad de datos
Para capturar más salida de reglas que información estadística, configure una ubicación de salida externa y el contenido que desea que se escriba en esa ubicación.
Puede elegir escribir la salida de la regla en una tabla de la base de datos. Si los enlaces de una regla basada en definiciones se gestionan externamente, también tiene la opción de crear hasta 4 enlaces de salida DataStage.
Para generar una tabla de base de datos o enlaces de salida:
Active la opción Salida externa y amplíe la sección.
Si estableció una configuración de tabla de salida en los ajustes del proyecto, puede seleccionar heredar esa configuración y pasar directamente a configurar el contenido de salida. Una configuración heredada se muestra como Actual.
Si no desea utilizar la tabla configurada en los ajustes del proyecto, seleccione el tipo de salida que desea generar:
Escriba la salida en una tabla de base de datos nueva o existente.
Seleccione una conexión. En función de la conexión seleccionada, seleccione un esquema, o seleccione un catálogo y un esquema. Para una nueva tabla, introduzca el nombre de la tabla de salida que se va a crear. En caso contrario, seleccione una tabla existente. En ese caso, la sección Contenido de salida se rellena con las columnas de esta tabla y puede asignar contenido a estas columnas.
Puede elegir si la tabla de salida debe añadirse a su proyecto como un activo de datos cuando ejecute la regla.
Para conocer los tipos de bases de datos compatibles, consulte Conectores compatibles para la curación y la calidad de los datos.
Al definir una nueva tabla, el nombre de la tabla puede ser un nombre definido por el usuario, un parámetro para crear dinámicamente un nombre, una combinación de nombre definido por el usuario y parámetro, o una combinación de parámetros.
Los nombres de tabla definidos por el usuario deben seguir esta convención:
- El primer carácter del nombre debe ser alfabético.
- El resto del nombre puede estar formado por caracteres alfabéticos, numéricos o guiones bajos.
- El nombre no debe contener espacios.
Para la creación dinámica de nombres, puede utilizar estos parámetros:
#execution_id#
#rule_id#
#rule_name#
#project_id#
#job_id#
#rule_id#
#job_run_id#
#rule_id#
Para los parámetros con valores cambiantes, podría crearse una nueva tabla:
- Para
para cada regla ejecute#job_run_id#
- Para
si la regla se ejecuta desde la interfaz de usuario de reglas de calidad de datos o mediante una llamada a la API#execution_id#
Además, puede seleccionar estas opciones:
- Crear tabla sólo cuando se encuentren incidencias Esta opción evita que se creen tablas vacías en los casos en que una regla no produzca registros de salida. Sin embargo, si ya existe una tabla con ese nombre porque se generó para una ejecución de regla anterior, la tabla no se modifica.
- Importar tabla de salida generada como activo del proyecto Para facilitar el acceso a la salida de reglas, añada nuevas tablas de salida de reglas como activos de datos al proyecto. En lugar de ejecutar una consulta a la base de datos, puede ver los datos abriendo el activo de datos desde la página Activos de su proyecto o desde el historial de ejecución de la regla. De forma predeterminada, está opción está habilitada.
Además, configure los siguientes ajustes:
- Registros de salida : Seleccione si desea incluir todos los registros en la salida, sólo los registros que no cumplen las condiciones de la regla (configuración predeterminada) o sólo los registros que cumplen las condiciones de la regla.
- Número máximo de registros de salida de excepciones : Puede incluir todos los registros o establecer un número máximo.
- Método de actualización : Los nuevos registros de salida pueden añadirse al contenido existente de la tabla de salida. Si sólo desea conservar los resultados de la última ejecución, seleccione sobrescribir los registros existentes. Para el método de actualización Append, no se puede cambiar el esquema de la tabla, es decir, no se puede renombrar, añadir o eliminar columnas. Si desea cambiar el contenido de salida de una regla de calidad de datos y escribir en una tabla de salida existente, asegúrese de utilizar el método de actualización Sobrescribir para sustituir las columnas de la tabla de salida por las columnas de salida recién definidas.
Para crear enlaces de salida si los enlaces se administran en un flujo DataStage, seleccione Enlaces de salida DataStage. Configura hasta 4 enlaces de salida. Seleccione qué salida debe enrutarse a un enlace específico: todos los registros, sólo los registros que no cumplen las condiciones de la regla, sólo los registros que cumplen las condiciones de la regla o todas las condiciones de la regla violadas. Defina también el número máximo de registros de salida que se escribirán por enlace. El contenido de los registros de salida viene determinado por lo que configure en el siguiente paso. Para las condiciones de regla violadas, se pueden devolver 0 o más registros de salida dependiendo del número de definiciones de calidad de datos en la regla. Cada registro de salida contiene la siguiente información:
- El ID del registro. Esta métrica se establece automáticamente como columna de salida.
- El ID de definición de una de las definiciones que el registro de entrada no pasó
- El número que identifica unívocamente la definición fallida en caso de definiciones duplicadas
Para asignar el ID de definición a una definición de calidad de datos de su proyecto, utilice la API IBM Knowledge Catalog :
- Enumerar todas las definiciones de calidad de los datos o un subconjunto de ellas
- Obtener la definición de calidad de datos
Los nodos de destino de estos enlaces de salida deben configurarse en el flujo DataStage.
Puedes cambiar el tipo de salida en cualquier momento. En función de la nueva selección, los ajustes configurados se restablecen o se sobrescriben. Cuando haya terminado, contraiga la sección y proceda a configurar el contenido de salida.
Configure el contenido de su tabla de salida.
- Si los enlaces se gestionan externamente, puede incluir en la tabla de salida cualquier columna adicional que se proporcione a través del enlace de entrada DataStage. Estas columnas no se listan en la configuración de la tabla de salida. No puede incluir ninguna variable que se utilice en los enlaces de las reglas.
- Haga clic en Añadir contenido de salida y seleccione una de estas opciones:
Columnas
Seleccione las columnas que desea ver en la tabla de salida. Para las reglas basadas en SQL, puede seleccionar entre todas las columnas que devuelva la consulta SQL. La opción Columnas no está disponible si crea una regla basada en definiciones con vinculaciones gestionadas externamente.
Estadísticas y atributos
Seleccione los atributos o estadísticas adicionales que desee incluir en la tabla de salida. Las métricas disponibles dependen del tipo de regla de calidad de los datos.
Enlazado a ID de activo
Enumera el ID del activo de datos al que está vinculada la regla. Si se selecciona esta métrica, se escribe un registro de salida para cada activo de datos en una regla de calidad de datos. Por lo tanto, se puede escribir más de un registro de salida para un registro de entrada individual. El contenido de los registros de salida para diferentes activos de la misma regla de calidad de datos varía sólo para estas métricas para cada registro de entrada individual: Definición de la calidad de los datos, ID de la definición de la calidad de los datos, ID vinculado al activo y, tal vez, Reglas de aprobado, Reglas de suspenso, Porcentaje de reglas de aprobado y Porcentaje de reglas de suspenso
Puede utilizar esta métrica sólo en combinación con la métrica Definición de calidad de datos o ID de definición de calidad de datos. Si la regla está asociada a más de una definición de calidad de datos, el desambiguador de métricas se incluye automáticamente en la salida.
Esta métrica no está disponible para reglas basadas en definiciones con enlaces gestionados externamente o reglas basadas en SQL.
Enlazado a columna
Enumera el nombre de cada columna vinculada. Si se selecciona esta métrica, se escribe un registro de salida por cada columna de una definición de calidad de datos. Por lo tanto, se puede escribir más de un registro de salida para un registro de entrada individual. El contenido de los registros de salida para diferentes columnas de la misma definición de calidad de datos varía sólo para estas métricas para cada registro de entrada individual: Definición de la calidad de los datos, ID de la definición de la calidad de los datos, Vinculado a la columna y, tal vez, Reglas de aprobado, Reglas de suspenso, Porcentaje de reglas de aprobado y Porcentaje de reglas de suspenso
Puede utilizar esta métrica sólo en combinación con la métrica Definición de calidad de datos o ID de definición de calidad de datos. Si la regla está asociada a más de una definición de calidad de datos, el desambiguador de métricas se incluye automáticamente en la salida.
Esta métrica no está disponible para reglas basadas en definiciones con enlaces gestionados externamente o reglas basadas en SQL.
Definición de calidad de datos
Indica el nombre de la definición de calidad de datos aplicada. Si se selecciona esta métrica, es posible que se escriban varios registros de salida en función del número de definiciones de calidad de datos que contenga la regla.
Esta métrica no está disponible para las reglas basadas en SQL.
ID de definición de la calidad de los datos
Contiene una clave única que identifica la definición de calidad de datos aplicada. Si se selecciona esta métrica, es posible que se escriban varios registros de salida en función del número de definiciones de calidad de datos que contenga la regla.
Esta métrica no está disponible para las reglas basadas en SQL.
Desambiguador
Contiene un número para desambiguar las definiciones de calidad de datos que se utilizan en la regla principalmente si una definición de calidad de datos se utiliza varias veces. La numeración comienza en 0.
Esta métrica no está disponible para las reglas basadas en SQL.
Reglas que no se cumplen
Muestra el número de condiciones de la regla que no cumple el registro.
ID de trabajo
Contiene una clave única que identifica el trabajo asociado al flujo DataStage para la regla.
ID de ejecución de trabajo
Contiene una clave única que identifica una ejecución individual del trabajo que está asociada con el flujo DataStage para la regla.
Reglas que se cumplen
Muestra el número de condiciones de la regla que cumple el registro.
Porcentaje de reglas que no se cumplen
Muestra el porcentaje de condiciones de la regla que se cumplieron.
Porcentaje de reglas que se cumplen
Muestra el porcentaje de condiciones de las reglas que no se cumplieron.
ID de proyecto
Contiene una clave única que identifica el proyecto en el que se encuentra la regla.
ID de registro
Contiene una clave única que identifica un registro en la salida. Esta métrica se incluye automáticamente en los enlaces de salida para las condiciones de regla violadas.
ID de regla
Contiene una clave única que identifica la regla de calidad de datos.
Nombre de regla
Contiene el nombre de la regla de calidad de datos.
Fecha del sistema
Muestra la fecha del sistema en la que se ejecutó la regla. La fecha del sistema es la fecha en la zona horaria establecida en el servidor.
Hora del sistema
Muestra la fecha y hora del sistema en que se ejecutó la regla. La fecha y hora del sistema es la fecha y hora de la zona horaria establecida en el servidor.
Variables
Seleccione las variables de la lógica de reglas que desea incluir en su tabla de salida.
Expresiones
Añade una expresión que defina el contenido de una columna de salida. Puede dar a esta columna un nombre descriptivo en el resumen del contenido de salida. Puede utilizar elementos de bloque para construir su expresión. Seleccione y combine los elementos que desee. Para obtener más información sobre el uso de elementos de bloque, consulte Gestión de definiciones de calidad de datos. También puede utilizar el editor de formularios libres para construir la expresión. Véase Bloques de construcción para la lógica de reglas o la salida de reglas.
Más información
Tema principal: Gestión de reglas de calidad de datos