Puede crear reglas de calidad de datos a partir de definiciones de calidad de datos en el proyecto.
Puede aplicar más de una definición de calidad de datos a una tabla o enlazar la misma definición a varias columnas de la misma tabla en una sola regla de calidad de datos.
Debe existir al menos una definición de calidad de datos en el proyecto. Consulte Gestión de definiciones de calidad de datos.
Para crear una regla de calidad de datos a partir de definiciones de calidad de datos:
Abra un proyecto, haga clic Nuevo activo > Medir y monitorear la calidad de los datos .
De forma alternativa, puede crear una regla directamente a partir de una definición de calidad de datos.
Definir detalles:
Especifique un nombre para la regla de calidad de datos.
Opcional: Especifique una descripción.
Seleccione las dimensiones de calidad de datos a las que contribuye esta regla de calidad de datos. Las dimensiones de calidad de datos describen las métricas de calidad de datos para la lógica de reglas en este activo. Las dimensiones seleccionadas se pueden utilizar como categoría de informe, para filtrar o para visualizar datos seleccionados.
Puede elegir entre estas opciones:
- Aplicar todas las dimensiones preestablecidas
- La regla contribuye a las puntuaciones de todas las dimensiones establecidas en las definiciones de calidad de datos utilizadas. Este es el valor predeterminado.
- Aplicar sólo esta dimensión
- La regla sólo contribuye a la puntuación de la dimensión seleccionada. Los valores de dimensión en las definiciones de calidad de datos que se utilizan en esta regla se ignoran. Si selecciona esta opción pero no establece una dimensión de calidad de datos, las puntuaciones de calidad de datos de las comprobaciones individuales de la regla se capturan en la dimensión Ninguna .
Opcional: cambie el tipo de regla que desea crear por una regla basada en SQL. En este caso, continúe con las instrucciones de Creación de una regla basada en SQL.
Añada al menos una definición de calidad de datos. Si crea la regla a partir de una definición de calidad de datos directamente, dicha definición ya está preseleccionada. Sin embargo, puede suprimir esta definición de calidad de datos preseleccionada y seleccionar otras diferentes.
Para añadir definiciones de calidad de datos, pulse Añadir y seleccione todas las definiciones de calidad de datos que desee utilizar para crear varias comprobaciones dentro de la misma regla. El botón Añadir sólo está disponible cuando no se selecciona ninguna definición de calidad de datos. Después de añadir al menos una definición, puede añadir más definiciones utilizando el icono más.
Para cualquier definición de calidad de datos en el diálogo Seleccionar definición de calidad de datos , la expresión de regla configurada se visualiza en el panel lateral para ayudarle a elegir la definición más adecuada para su propósito.
Si desea aplicar la misma definición a diferentes columnas de una tabla, puede duplicar la definición de calidad de datos seleccionada tantas veces como sea necesario.
Tenga en cuenta que se crea una entrada separada en la tabla de salida para cada comprobación pasada o fallida, en función de la configuración de salida.
Configurar enlaces.
Para cada definición de calidad de datos, enlace los datos a todas las variables de la expresión de regla. Puede enlazar datos de columna, valores literales o parámetros de trabajo a una variable. En función de los enlaces configurados, es posible que tenga que crear uniones tal como se describe en el paso siguiente.
Para completar los enlaces, puede moverse entre las definiciones de calidad de datos utilizando las flechas Anterior y Siguiente o la lista desplegable. La tabla de enlaces muestra todas las variables junto con su tipo de datos. Para cada variable, seleccione un tipo de enlace y los datos a los que enlazar la variable.
Cuando enlaza datos de columna a una variable de la regla directamente, puede utilizar datos de todos los activos de datos del proyecto que proceden de una de las conexiones soportadas. Consulte Conectores soportados para la ordenación y la calidad de los datos. Si desea enlazar datos desde una conexión que se ha creado con credenciales personales, primero deberá desbloquear la conexión. Además de los activos de datos de una conexión, puede trabajar con activos de datos de archivos en formato CSV cargados desde el sistema de archivos local o desde conexiones basadas en archivos a los orígenes de datos.
Sin embargo, es posible que los enlaces requieran un preproceso de datos o que desee incluir información adicional en la tabla de salida. En este caso, habilite la opción Gestionar enlaces externamente y active DataStage. Se eliminan todos los enlaces existentes y se crea un flujo de DataStage . De forma predeterminada, el flujo de DataStage se denomina
<rule_name>_DataStage_flow
, pero cambia ese nombre. Configure el flujo de DataStage después de completar la configuración de regla. Cuando crea reglas complejas y gestiona enlaces externamente, puede trabajar con todos los activos de datos que proceden de conexiones soportadas por DataStage. Consulte Conectores deDataStage.Para que una regla de calidad de datos con enlaces externos contribuya a la puntuación de calidad de datos de un activo o una columna, agregue ese activo o columna como un elemento relacionado a la regla correspondiente. Utilice el tipo de relación Valida la calidad de datos de . Se informa de la misma puntuación y problemas para todos los activos y columnas que están enlazados con este tipo de relación.
Además de enlazar una variable de regla a un único valor literal o columna, puede trabajar con parámetros de trabajo de nivel de proyecto.
Puede utilizar la opción Parámetro a literal para enlazar las variables de regla a valores literales que se gestionan de forma centralizada y que se pueden cambiar en tiempo de ejecución. Estos parámetros suelen representar un hecho o un dato específico. Al utilizar un parámetro en lugar del valor real en una regla, se asegura de que la regla siempre utiliza el valor más actual si el valor cambia.
Para poder enlazar variables de regla a parámetros de trabajo, debe crear un conjunto de parámetros DataStage reutilizable:
- En su proyecto, haga clic Nuevo activo > Definir conjuntos de parámetros reutilizables .
- Defina parámetros con valores predeterminados o con conjuntos de valores. Para su uso en reglas, puede definir parámetros del tipo fecha, entero, serie, flotante, hora o indicación de fecha y hora. Los tipos de cifrado, lista y vía de acceso no están soportados. Consulte Creación y utilización de parámetros y conjuntos de parámetros.
Cuando trabaja con conjuntos de valores, puede cambiar el valor de variable para cada ejecución de trabajo. Edite los valores de parámetro de tiempo de ejecución y vuelva a ejecutar el trabajo.
También puede definir columnas para utilizarlas en enlaces como parámetros de trabajo a nivel de proyecto para facilitar el mantenimiento. Los parámetros de columna constan de un ID de activo y un nombre de columna y también se almacenan en conjuntos de parámetros de DataStage . Puede crear un nuevo conjunto de parámetros o añadir parámetros de columna a un conjunto de parámetros existente. En este caso, debe crear un parámetro de la serie de tipo y especificar manualmente el ID de activo y el nombre de columna necesarios como valor predeterminado. La forma más fácil es añadir dicho parámetro en el paso de enlace al crear una regla.
- Como Tipo de enlace, seleccione Parámetro de la columna. A continuación, pulse Seleccionar parámetro.
- Se listan todos los conjuntos de parámetros disponibles. Expanda el con el que desea trabajar.
- Para añadir un parámetro, pulse el icono más.
- Especifique el nombre del parámetro. Omita el campo Solicitud . No se utiliza para parámetros de columna.
- Seleccione un activo de datos y una columna. La selección se establece como el valor predeterminado del parámetro.
Tenga en cuenta que los conjuntos de valores no se pueden utilizar con parámetros de columna. Además, no puede cambiar los parámetros de columna en tiempo de ejecución.
Si actualiza un parámetro de columna que se utiliza en más de una regla, debe volver a ejecutar cada una de estas reglas de calidad de datos abriéndolo y pulsando Ejecutar regla.
Crear uniones. Si sus enlaces no requieren uniones, puede pasar al paso siguiente. Pero si desea utilizar datos de varias tablas en la tabla de salida, debe crear uniones en estas tablas. Si gestiona enlaces externamente, no puede crear uniones en la configuración de reglas. Las uniones también se deben definir en el flujo de DataStage .
Si los enlaces requieren uniones, se listan las tablas. Se muestra una marca de selección en la columna Unión completada después de configurar una unión. En la tabla Claves de unión , siga estos pasos para cada unión que desee definir:
Pulse Añadir par de claves.
Pulse Clave 1. A continuación, seleccione el primer elemento que desea utilizar en la unión.
Pulse Clave 2 y seleccione el segundo elemento.
Seleccione el tipo de unión:
- Unión interna
- Los registros donde las columnas seleccionadas contienen valores iguales se transfieren al conjunto de datos de salida.
- Unión externa a la izquierda
- Todos los registros de la columna seleccionada para la clave 1 se transfieren a la tabla de salida. Los registros de la columna seleccionada para la clave 2 sólo se transfieren cuando los valores coinciden.
- Unión externa derecha
- Todos los registros de la columna seleccionada para la clave 2 se transfieren a la tabla de salida. Los registros de la columna seleccionada para la clave 1 sólo se transfieren cuando los valores coinciden.
- Unión externa completa
- Todos los registros de ambas tablas se transfieren a la tabla de salida.
Puede cambiar el tipo de unión en cualquier momento. Sin embargo, si desea cambiar la selección para la clave 1 o la clave 2, debe suprimir el par de claves existente y crear uno nuevo.
Opcional: Configure el muestreo.
Si no desea o no necesita evaluar todas las filas de un activo de datos, habilite el muestreo de datos. Por lo tanto, puede generar resultados basados en una fracción de los datos.
Para activos de datos conectados regularmente, el muestreo se realiza en el origen de datos. En la mayoría de las bases de datos, el orden de los registros no es determinista. Por lo tanto, los registros incluidos en la muestra pueden variar de ejecución a ejecución, lo que significa que los resultados y el contenido de la tabla de salida (si se ha configurado) también pueden cambiar con el tiempo.
Para activos de datos conectados basados en consultas, el muestreo no se realiza en el origen de datos, sino en la etapa Sample del flujo de DataStage asociado a la regla.
Establezca el tamaño máximo de la muestra. Seleccione el número máximo de registros que desea incluir en la muestra de datos. El valor predeterminado es 1.000 registros.
Seleccione un método de muestreo:
- Secuencial
- La muestra incluye los primeros x registros del activo de datos. En función del tamaño del activo de datos, el número x puede estar hasta el valor que ha especificado como tamaño máximo de muestra permitido. Por ejemplo, si tiene 1.000.000 de registros y especifica un tamaño máximo de muestra de 2.000, la muestra incluye los primeros 2.000 registros.
- Interval
- La muestra incluye cada nregistro hasta que se alcanza el tamaño de muestra máximo permitido. Por ejemplo, si tiene 1.000.000 de registros y especifica un tamaño de muestra de 2.000 con un intervalo de 10, se lee un máximo de 20.000 registros (2.000*10) con cada 10º registro seleccionado para recuperar el tamaño de muestra de 2.000.
- RANDOM
- La muestra incluye registros seleccionados aleatoriamente hasta el tamaño de muestra máximo permitido. La fórmula utilizada para seleccionar registros es (100/sample_percent)*sample_size*2. Se utiliza el número 2 en la fórmula para asegurarse de que se leen suficientes registros para generar un tamaño de muestra aleatorio válido. Por ejemplo, si tiene 1.000.000 de registros y especifica un tamaño de muestra de 2.000 y un porcentaje de 5, la muestra incluye 2.000 registros. Para crear la muestra, se leen como máximo 80.000 registros ((100/ 5) * 2.000 * 2 = 80.000).
- En el campo Porcentaje , especifique el porcentaje que desea utilizar para crear la muestra. Especifique un valor mayor que 0 y hasta 100.
Configure los valores de salida y el contenido.
Seleccione si desea que la salida de regla se escriba en una ubicación externa. Si no es así, sólo se proporciona alguna información estadística en el historial de ejecución de la regla.
Puede elegir escribir la salida de regla en una tabla de base de datos. Si los enlaces se gestionan externamente, también tiene la opción de crear hasta 4 enlaces de salida de DataStage .
Para generar una tabla de base de datos o enlaces de salida:
Habilite la opción Salida externa y expanda la sección.
Seleccione el tipo de salida que desea generar:
Para grabar la salida en una tabla de base de datos, seleccione una de estas opciones:
Grabar en una nueva tabla de base de datos
Seleccione una conexión. En función de la conexión seleccionada, seleccione un esquema, o seleccione un catálogo y un esquema. A continuación, introduzca el nombre de la tabla de salida que desea crear.
Cuando ejecuta la regla, esta nueva tabla de salida también se añade al proyecto como un activo de datos.
Grabar en una tabla de base de datos existente
Seleccione una conexión. En función de la conexión seleccionada, seleccione un esquema y una tabla existente, o seleccione un catálogo, un esquema y una tabla existente. La sección Contenido de salida se rellena con las columnas de esta tabla y puede asignar contenido a estas columnas.
Si un activo de datos correspondiente no existe en el proyecto, se crea al ejecutar la regla.
Para ver los tipos de base de datos soportados, consulte Conectores soportados para la ordenación y la calidad de los datos. Los nombres de esquema y tabla deben seguir este convenio:
- El primer carácter del nombre debe ser un carácter alfabético.
- El resto del nombre puede constar de caracteres alfabéticos, caracteres numéricos o subrayados.
- El nombre no debe contener espacios.
Puede acceder al activo de datos que corresponde a la tabla de salida de regla desde la página Activos del proyecto o desde el historial de ejecuciónde la regla.
Configure los valores siguientes:
Registros de salida: Seleccione si desea incluir todos los registros en la salida, sólo los registros que no cumplen las condiciones de regla (valor predeterminado) o sólo los registros que cumplen las condiciones de regla.
Número máximo de registros de salida de excepción: puede incluir todos los registros o establecer un número máximo.
Método de actualización: se pueden añadir nuevos registros de salida al contenido existente de la tabla de salida. Si desea conservar sólo los resultados de salida de la última ejecución, seleccione sobrescribir los registros existentes.
Para el método de actualización Añadir, el esquema de tabla no se puede cambiar, es decir, no puede renombrar, añadir o suprimir columnas. Si desea cambiar el contenido de salida para una regla de calidad de datos y escribir en una tabla de salida existente, asegúrese de utilizar el método de actualización Sobrescribir para sustituir las columnas de la tabla de salida por las columnas de salida recién definidas.
Para crear enlaces de salida si los enlaces se gestionan en un flujo de DataStage , seleccione Enlaces de salida deDataStage.
Configure hasta 4 enlaces de salida. Seleccione qué salida se debe direccionar a un enlace específico: todos los registros, sólo los registros que no cumplen las condiciones de regla, sólo los registros que cumplen las condiciones de regla o todas las condiciones de regla violadas.
Asimismo, defina el número máximo de registros de salida que se grabarán por enlace.
El contenido de los registros de salida está determinado por lo que configure en el paso siguiente. Para las condiciones de regla violadas, se pueden devolver 0 o más registros de salida en función del número de definiciones de calidad de datos de la regla. Cada registro de salida tiene la siguiente información:
- El ID de registro. Esta métrica se establece automáticamente como una columna de salida.
- El ID de definición de una de las definiciones que el registro de entrada no ha pasado
- El número que identifica de forma exclusiva la definición fallida en el caso de definiciones duplicadas
Para asignar el ID de definición a una definición de calidad de datos de su proyecto, utilice la API de IBM Knowledge Catalog :
- Listar todas las definiciones de calidad de datos o un subconjunto de ellas
- Obtener definición de calidad de datos
Los nodos de destino de estos enlaces de salida deben configurarse en el flujo de DataStage .
Puede cambiar el tipo de salida en cualquier momento. En función de la nueva selección, los valores configurados se restablecen o se sobrescriben.
Cuando haya terminado, contraiga la sección y continúe configurando el contenido de salida.
Configure el contenido de la tabla de salida.
Si los enlaces se gestionan externamente, puede incluir cualquier columna adicional que se proporcione a través del enlace de entrada de DataStage en la tabla de salida. Estas columnas no se listan en la configuración de la tabla de salida. No puede incluir ninguna variable que se utilice en enlaces de regla.
Pulse Añadir contenido de salida y seleccione una de estas opciones:
- Columnas: Seleccione las columnas que desea ver en la tabla de salida. Esta opción no está disponible si los enlaces se gestionan externamente.
- Estadísticas y atributos: Seleccione los atributos o estadísticas adicionales que desee incluir en la tabla de salida:
ID de activo vinculado: Enumera el ID del activo de datos al que está vinculada la regla. Si se selecciona esta métrica, se escribe un registro de salida por cada activo de datos en una regla de calidad de datos. Por lo tanto, se puede escribir más de un registro de salida para un registro de entrada individual. El contenido de los registros de salida para diferentes activos de la misma regla de calidad de datos varía sólo para estas métricas para cada registro de entrada individual: Definición de la calidad de los datos, ID de la definición de la calidad de los datos, ID vinculado al activo y, tal vez, Reglas de aprobado, Reglas de suspenso, Porcentaje de reglas de aprobado y Porcentaje de reglas de suspenso
Esta medida no está disponible para las reglas con enlaces gestionados externamente. Además, esta métrica sólo se puede utilizar en combinación con la métrica Definición de calidad de datos o ID de definición de calidad de datos. Si la regla está asociada a más de una definición de calidad de datos, el desambiguador de métricas se incluye automáticamente en la salida.
Enlazado a columna: lista el nombre de cada columna enlazada. Si se selecciona esta métrica, se escribe un registro de salida para cada columna en una definición de calidad de datos. Por lo tanto, se puede escribir más de un registro de salida para un registro de entrada individual. El contenido de los registros de salida para diferentes columnas de la misma definición de calidad de datos varía sólo para estas métricas para cada registro de entrada individual: Definición de la calidad de los datos, ID de la definición de la calidad de los datos, Vinculado a la columna, y tal vez Reglas de aprobado, Reglas de suspenso, Porcentaje de reglas de aprobado y Porcentaje de reglas de suspenso
Esta medida no está disponible para las reglas con enlaces gestionados externamente. Además, esta métrica sólo se puede utilizar en combinación con la métrica Definición de calidad de datos o ID de definición de calidad de datos. Si la regla está asociada a más de una definición de calidad de datos, el desambiguador de métricas se incluye automáticamente en la salida.
Definición de calidad de datos: lista el nombre de la definición de calidad de datos aplicada. Si se selecciona esta métrica, es posible que se escriban varios registros de salida en función del número de definiciones de calidad de datos que contenga la regla.
ID de la definición de calidad de datos: Contiene una clave única que identifica la definición de calidad de datos aplicada. Si se selecciona esta métrica, es posible que se escriban varios registros de salida en función del número de definiciones de calidad de datos que contenga la regla.
Desambiguador: Contiene un número para desambiguar las definiciones de calidad de datos que se utilizan en la regla principalmente si una definición de calidad de datos se utiliza varias veces. La numeración comienza en 0.
Reglas anómalas: muestra el número de condiciones de regla que el registro no ha cumplido.
ID de trabajo: Contiene una clave única que identifica el trabajo que está asociado con el flujo de DataStage para la regla.
ID de ejecución del trabajo: Contiene una clave única que identifica una ejecución individual del trabajo que está asociada con el flujo de DataStage para la regla.
Pasar reglas: muestra el número de condiciones de regla que el registro ha cumplido.
Porcentaje de reglas que pasan: Muestra el porcentaje de condiciones de regla que se han cumplido.
Porcentaje de reglas anómalas: muestra el porcentaje de condiciones de regla que no se han cumplido.
ID del proyecto: Contiene una clave única que identifica el proyecto en el que vive la regla.
ID de registro: Contiene una clave exclusiva que identifica un registro en la salida. Esta métrica se incluye automáticamente para los enlaces de salida para las condiciones de regla violadas.
ID de la regla: Contiene una clave única que identifica la regla de calidad de datos.
Nombre de regla: Contiene el nombre de la regla de calidad de datos.
Fecha del sistema: muestra la fecha del sistema en la que se ejecutó la regla. La fecha del sistema es la fecha del huso horario establecido en el servidor.
Hora del sistema: Muestra la fecha y hora del sistema en que se ejecutó la regla. La fecha y hora del sistema es la fecha y hora del huso horario establecido en el servidor.
- Variables: seleccione las variables de la lógica de reglas que desea incluir en la tabla de salida.
- Expresiones: añada una expresión que defina el contenido de una columna de salida. Puede asignar a esta columna un nombre descriptivo en la visión general del contenido de salida. Puede utilizar elementos de bloque para construir la expresión. Seleccione y combine elementos según sea necesario. Para obtener más información sobre cómo utilizar elementos de bloque, consulte Gestión de definiciones de calidad de datos. De forma alternativa, puede utilizar el editor de formato libre para construir la expresión. Consulte Bloques de construcción para la lógica de reglas o la salida de reglas.
Revise la configuración. Para asegurarse de que la regla se ha configurado correctamente, puede probarla antes de guardarla en el proyecto. La salida de la prueba de regla se visualiza directamente y coincide con lo que ha configurado en los valores de salida.
Para realizar cambios en la configuración, haga clic en el icono Editar ' del mosaico y actualice los ajustes.
Cuando se haya completado la revisión, pulse Crear. La regla y su flujo de DataStage relacionado se añaden al proyecto. El nombre predeterminado del flujo de DataStage es
DataStage flow of data rule <rulename>
. No edite dicho flujo.Si la regla está configurada con enlaces gestionados externamente, la regla y el flujo de DataStage y sus subflujos se añaden al proyecto cuando pulsa Crear. Sin embargo, la regla no está lista para ejecutarse. Para poder ejecutar la regla, debe editar el flujo de DataStage . También puede seleccionar Crear y editar flujo de DataStage. En este caso, la regla y el flujo de DataStage y sus subflujos también se añaden al proyecto, pero se le lleva directamente a la configuración del flujo de DataStage . La denominación de estos flujos de DataStage sigue el patrón
<rule-name>_Datastage_flow
yDataStage subflow of data rule <rulename>
. Para obtener más información sobre cómo configurar el flujo, consulte Flujos deDataStage.
Si la regla se ha configurado correctamente sin que falte información, tiene el estado Listo. Este estado significa que la regla se puede ejecutar. El estado de regla No preparado indica que la regla no se puede ejecutar porque se han modificado algunas dependencias. Por ejemplo, se ha actualizado la definición de calidad de datos o se ha eliminado una tabla que se utiliza en los enlaces de la regla. El estado No preparado también se muestra para las reglas con enlaces gestionados externamente si el flujo de DataStage asociado no está configurado. Después de configurar el flujo, puede validar la regla seleccionando Validar en el menú de desbordamiento. Si la validación es satisfactoria, el estado se establece en Preparadoy puede ejecutar la regla.
Es posible que una regla ya no sea válida después de realizar modificaciones en el activo de datos que analiza la regla. Por lo tanto, es posible que desee validar el estado de la regla en cualquier caso antes de ejecutar una regla manualmente.
Más información
- Activos de calidad de datos:
- Gestión de definiciones de calidad de datos
- Conectores soportados para la ordenación y la calidad de los datos
- Creación y utilización de parámetros y conjuntos de parámetros
- Creación de reglas basadas en SQL
- API de IBM Knowledge Catalog : Crear regla de calidad de datos
- API de IBM Knowledge Catalog : Validar regla de calidad de datos
- API de IBM Knowledge Catalog : Enumera todas las definiciones de calidad de datos o un subconjunto de ellas
- API de IBM Knowledge Catalog : Obtener definición de calidad de datos
Próximos pasos
Tema padre: Gestión de reglas de calidad de datos