Puede crear reglas de calidad de datos basadas en SQL para evaluar la calidad de los datos en el proyecto. Utilice estas reglas para medir errores en lugar de para evaluar el cumplimiento de criterios de calidad específicos.
Para que una regla de calidad de datos basada en SQL contribuya a las puntuaciones de calidad de los datos de un activo o una columna, agregue ese activo o columna como un elemento relacionado a la regla correspondiente. Utilice el tipo de relación Valida la calidad de datos de . Se informa de la misma puntuación y problemas para todos los activos y columnas que están enlazados con este tipo de relación.
Para crear una regla de calidad de datos basada en SQL:
Abra un proyecto, haga clic Nuevo activo > Medir y monitorear la calidad de los datos .
Definir detalles:
Especifique un nombre para la regla de calidad de datos.
Opcional: Especifique una descripción.
Opcional: Seleccione una dimensión de calidad de datos para describir la métrica de calidad de datos primaria para la lógica de reglas en este activo. La dimensión seleccionada se puede utilizar como categoría de informe, para filtrar o para visualizar datos seleccionados.
Al crear la regla a partir de una definición de calidad de datos, es posible que ya se haya establecido una dimensión de calidad de datos. Puede conservarlo, suprimir el valor de dimensión o seleccionar una dimensión diferente.
Habilite la opción Utilizar sentencias SQL .
Especifique el origen de los datos que desea comprobar seleccionando una conexión existente o creando una nueva. Para los orígenes de datos soportados, consulte Orígenes de datos soportados para la ordenación y la calidad de los datos.
Si selecciona una conexión existente y esta conexión se ha creado con credenciales personales, tendrá que desbloquear la conexión.
Especifique las sentencias SQL.
Cuando escriba la consulta, asegúrese de que la sentencia SELECT cumple las condiciones siguientes:
- La sentencia sólo devuelve columnas con nombres exclusivos. Las columnas con nombres duplicados provocarán errores de validación.
- La sentencia devuelve el número de registros que no cumplen la condición de calidad de datos. Las reglas basadas en SQL funcionan de una forma diferente a las reglas creadas a partir de definiciones de calidad de datos. Notifican los registros que la sentencia SELECT devuelve como
failed
oNot met
. Además, el número total de registros notificados es igual al número de registros devueltos, no al número de registros comprobados.
Por ejemplo, suponiendo que tiene una tabla
db2admin.credit_card
con 31 filas y desea comprobar cuántos registros con el tipo de tarjeta AMEX hay en la tabla, la diferencia es la siguiente:Regla de calidad de datos de una definición de calidad de datos
Compruebe los registros en los que el tipo de tarjeta es AMEX.
Expresión en la definición de calidad de datos:Col = 'AMEX'
Expresión enlazada en la regla de calidad de datos:credit_card.card_type = 'AMEX'
Resultado de ejemplo:Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)
Regla de calidad de datos basada en SQL
Compruebe los registros en los que el tipo de tarjeta no es AMEX.
Sentencia SELECT:select card_type from db2admin.credit_card where card_type <> 'AMEX'
Resultado de la muestra:Total: 27 | Met: 0 (0%) Not met: 27 (100%)
Compruebe también el conjunto de Sentencias SQL de ejemplo para reglas de calidad de datos. Estos ejemplos muestran cómo puede escribir reglas SQL para devolver registros que no cumplen los criterios de calidad. Puede copiar las sentencias proporcionadas en sus propias reglas de calidad de datos y ajustarlas según sea necesario.
Tenga en cuenta estos convenios para especificar nombres de columna, tabla y esquema en la sentencia SELECT:
- Los nombres de tabla y esquema en los orígenes de datos PostgreSQL distinguen entre mayúsculas y minúsculas. Es posible que tenga que escribir los nombres entre comillas dobles como en este ejemplo: "schema". "table_name"
- Intente evitar las consultas de
SELECT *
. Estas consultas pueden provocar errores de validación cuando cambian los nombres de columna. Acotar la selección de columna. - Si el nombre de columna no empieza por un carácter alfabético o contiene caracteres que no sean caracteres alfabéticos, caracteres numéricos o subrayados, utilice un alias para el nombre de columna.
En cualquier momento, puede probar las sentencias SQL. Tenga en cuenta que la prueba sólo devuelve los nombres de las columnas seleccionadas por la consulta. No se realiza ningún proceso real. Se realiza una comprobación de validez al pulsar Siguiente. No puede continuar a menos que la consulta pase esta comprobación.
Configure los valores de salida y el contenido.
Seleccione si desea que la salida de regla se grabe en una base de datos. Si no es así, sólo se proporciona alguna información estadística en el historial de ejecución de la regla.
Para generar una tabla de base de datos:
Habilite la opción Salida externa y expanda la sección.
Seleccione una de estas opciones:
Grabar en una nueva tabla de base de datos
Seleccione una conexión. En función de la conexión seleccionada, seleccione un esquema, o seleccione un catálogo y un esquema. A continuación, introduzca el nombre de la tabla de salida que desea crear.
Cuando ejecuta la regla, esta nueva tabla de salida también se añade al proyecto como un activo de datos.
Grabar en una tabla de base de datos existente
Seleccione una conexión. En función de la conexión seleccionada, seleccione un esquema y una tabla existente, o seleccione un catálogo, un esquema y una tabla existente. La sección Contenido de salida se rellena con las columnas de esta tabla y puede asignar contenido a estas columnas.
Si un activo de datos correspondiente no existe en el proyecto, se crea al ejecutar la regla.
Para ver los tipos de base de datos soportados, consulte Orígenes de datos soportados para la ordenación y la calidad de datos. Los nombres de esquema y tabla deben seguir este convenio:
- El primer carácter del nombre debe ser un carácter alfabético.
- El resto del nombre puede constar de caracteres alfabéticos, caracteres numéricos o subrayados.
- El nombre no debe contener espacios.
Puede acceder al activo de datos que corresponde a la tabla de salida de regla desde la página Activos del proyecto o desde el historial de ejecuciónde la regla.
La consulta SQL determina qué registros se graban en la tabla de salida, pero puede configurar los valores siguientes:
Número máximo de registros de salida de excepción: puede incluir todos los registros o establecer un número máximo.
Método de actualización: se pueden añadir nuevos registros de salida al contenido existente de la tabla de salida. Si desea conservar sólo los resultados de salida de la última ejecución, seleccione sobrescribir los registros existentes.
Para el método de actualización Añadir, el esquema de tabla no se puede cambiar, es decir, no puede renombrar, añadir o suprimir columnas. Si desea cambiar el contenido de salida para una regla de calidad de datos y escribir en una tabla de salida existente, asegúrese de utilizar el método de actualización Sobrescribir para sustituir las columnas de la tabla de salida por las columnas de salida recién definidas.
Puede cambiar el tipo de salida en cualquier momento. En función de la nueva selección, los valores configurados se restablecen o se sobrescriben.
Configure el contenido de la tabla de salida. De forma predeterminada, todas las columnas seleccionadas por la consulta SQL se incluyen en la tabla de salida. Puede eliminar las columnas seleccionadas o todas ellas, y añadir otro contenido. Pulse Añadir contenido de salida y seleccione una de estas opciones:
Columnas: Seleccione las columnas que desea ver en la tabla de salida. Puede seleccionar entre todas las columnas que devuelve la consulta SQL.
Estadísticas y atributos: Seleccione los atributos o estadísticas adicionales que desee incluir en la tabla de salida:
- ID de registro: Contiene una clave exclusiva que identifica un registro en la salida.
- Nombre de regla: Contiene el nombre de la regla de calidad de datos.
- Fecha del sistema: muestra la fecha del sistema en la que se ejecutó la regla. La fecha del sistema es la fecha del huso horario establecido en el servidor.
- Hora del sistema: Muestra la fecha y hora del sistema en que se ejecutó la regla. La fecha y hora del sistema es la fecha y hora del huso horario establecido en el servidor.
- Pasar reglas: muestra el número de condiciones de regla que el registro ha cumplido.
- Reglas anómalas: muestra el número de condiciones de regla que el registro no ha cumplido.
- Porcentaje de reglas que pasan: Muestra el porcentaje de condiciones de regla que se han cumplido.
- Porcentaje de reglas anómalas: muestra el porcentaje de condiciones de regla que no se han cumplido.
Revise la configuración. Para asegurarse de que la regla se ha configurado correctamente, puede probarla antes de guardarla en el proyecto. La salida de la prueba de regla se visualiza directamente y coincide con lo que ha configurado en los valores de salida.
Para realizar cambios en la configuración, haga clic en el icono Editar del mosaico y actualice la configuración. Cuando haya terminado su revisión, haga clic en Crear. La regla y su flujo DataStage relacionado se añaden al proyecto. El nombre por defecto del flujo DataStage es
DataStage flow of data rule <rulename>
.
Si la regla se ha configurado correctamente sin que falte información, tiene el estado Listo. Este estado significa que la regla se puede ejecutar. El estado de regla No preparado indica que la regla no se puede ejecutar debido a errores de sintaxis de SQL, dependencias modificadas u otros problemas de definición de regla. Por ejemplo, la contraseña para acceder al origen de datos ha cambiado. Es más probable que este estado aparezca en las reglas de calidad de datos creadas mediante la API de IBM Knowledge Catalog : Crear regla de calidad de datos. Cuando cree reglas de calidad de datos utilizando la API, asegúrese de probar y validar también la regla.
Para confirmar que una regla sigue siendo válida antes de ejecutarla manualmente, puede comprobar el estado de la regla seleccionando Validar en el menú de desbordamiento.
Más información
Próximos pasos
Tema padre: Gestión de reglas de calidad de datos