Creación de reglas de calidad de datos basadas en SQL
Puede crear reglas de calidad de datos basadas en SQL para evaluar la calidad de los datos en el proyecto. Utilice estas reglas para medir errores en lugar de para evaluar el cumplimiento de criterios de calidad específicos.
Para que una regla de calidad de datos basada en SQL contribuya a las puntuaciones de calidad de los datos de un activo o una columna, agregue ese activo o columna como un elemento relacionado a la regla correspondiente. Utilice el tipo de relación Valida la calidad de datos de . Se informa de la misma puntuación y problemas para todos los activos y columnas que están enlazados con este tipo de relación.
Para crear una regla de calidad de datos basada en SQL:
Abra un proyecto, haga clic Nuevo activo > Medir y monitorear la calidad de los datos .
Definir detalles:
Especifique un nombre para la regla de calidad de datos.
Opcional: Especifique una descripción.
Opcional: Seleccione una dimensión de calidad de datos para describir la métrica de calidad de datos primaria para la lógica de reglas en este activo. La dimensión seleccionada se puede utilizar como categoría de informe, para filtrar o para visualizar datos seleccionados.
Al crear la regla a partir de una definición de calidad de datos, es posible que ya se haya establecido una dimensión de calidad de datos. Puede conservarlo, suprimir el valor de dimensión o seleccionar una dimensión diferente.
Habilite la opción Utilizar sentencias SQL .
Especifique el origen de los datos que desea comprobar seleccionando una conexión existente o creando una nueva. Para los orígenes de datos soportados, consulte Orígenes de datos soportados para la ordenación y la calidad de los datos.
Si selecciona una conexión existente y esta conexión se ha creado con credenciales personales, tendrá que desbloquear la conexión.
Especifique las sentencias SQL.
Cuando escriba la consulta, asegúrese de que la sentencia SELECT cumple las condiciones siguientes:
- La sentencia sólo devuelve columnas con nombres exclusivos. Las columnas con nombres duplicados provocarán errores de validación.
- La sentencia devuelve el número de registros que no cumplen la condición de calidad de datos. Las reglas basadas en SQL funcionan de una forma diferente a las reglas creadas a partir de definiciones de calidad de datos. Notifican los registros que la sentencia SELECT devuelve como
failed
oNot met
. Además, el número total de registros notificados es igual al número de registros devueltos, no al número de registros comprobados.
Por ejemplo, suponiendo que tiene una tabla
db2admin.credit_card
con 31 filas y desea comprobar cuántos registros con el tipo de tarjeta AMEX hay en la tabla, la diferencia es la siguiente:Regla de calidad de datos de una definición de calidad de datos
Compruebe los registros en los que el tipo de tarjeta es AMEX.
Expresión en la definición de calidad de datos:Col = 'AMEX'
Expresión enlazada en la regla de calidad de datos:credit_card.card_type = 'AMEX'
Resultado de ejemplo:Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)
Regla de calidad de datos basada en SQL
Compruebe los registros en los que el tipo de tarjeta no es AMEX.
Sentencia SELECT:select card_type from db2admin.credit_card where card_type <> 'AMEX'
Resultado de la muestra:Total: 27 | Met: 0 (0%) Not met: 27 (100%)
Compruebe también el conjunto de Sentencias SQL de ejemplo para reglas de calidad de datos. Estos ejemplos muestran cómo puede escribir reglas SQL para devolver registros que no cumplen los criterios de calidad. Puede copiar las sentencias proporcionadas en sus propias reglas de calidad de datos y ajustarlas según sea necesario.
Tenga en cuenta estos convenios para especificar nombres de columna, tabla y esquema en la sentencia SELECT:
- Los nombres de tabla y esquema en los orígenes de datos PostgreSQL distinguen entre mayúsculas y minúsculas. Es posible que tenga que escribir los nombres entre comillas dobles como en este ejemplo: "schema". "table_name"
- Intente evitar las consultas de
SELECT *
. Estas consultas pueden provocar errores de validación cuando cambian los nombres de columna. Acotar la selección de columna. - Si el nombre de columna no empieza por un carácter alfabético o contiene caracteres que no sean caracteres alfabéticos, caracteres numéricos o subrayados, utilice un alias para el nombre de columna.
En cualquier momento, puede probar las sentencias SQL. Tenga en cuenta que la prueba sólo devuelve los nombres de las columnas seleccionadas por la consulta. No se realiza ningún proceso real. Se realiza una comprobación de validez al pulsar Siguiente. No puede continuar a menos que la consulta pase esta comprobación.
Configure los valores de salida y el contenido.
Seleccione si desea que la salida de regla se grabe en una base de datos. Si no es así, sólo se proporciona alguna información estadística en el historial de ejecución de la regla. Para obtener más información, consulte Configuración de los parámetros de salida de las reglas de calidad de datos.
Revise la configuración. Para asegurarse de que la regla se ha configurado correctamente, puede probarla antes de guardarla en el proyecto. La salida de la prueba de regla se visualiza directamente y coincide con lo que ha configurado en los valores de salida.
Para realizar cambios en la configuración, haga clic en el icono Editar
del mosaico y actualice los ajustes. Cuando haya terminado su revisión, haga clic en Crear. La regla y su flujo DataStage relacionado se añaden al proyecto. El nombre por defecto del flujo DataStage es
DataStage flow of data rule <rulename>
.
Si la regla se ha configurado correctamente sin que falte información, tiene el estado Listo. Este estado significa que la regla se puede ejecutar. El estado de regla No preparado indica que la regla no se puede ejecutar debido a errores de sintaxis de SQL, dependencias modificadas u otros problemas de definición de regla. Por ejemplo, la contraseña para acceder al origen de datos ha cambiado. Es más probable que este estado aparezca en las reglas de calidad de datos creadas mediante la API de IBM Knowledge Catalog : Crear regla de calidad de datos. Cuando cree reglas de calidad de datos utilizando la API, asegúrese de probar y validar también la regla.
Para confirmar que una regla sigue siendo válida antes de ejecutarla manualmente, puede comprobar el estado de la regla seleccionando Validar en el menú de desbordamiento.
Más información
Próximos pasos
Tema padre: Gestión de reglas de calidad de datos