Activos de calidad de datos:
Diseñar activos de calidad de datos para analizar y supervisar la calidad de datos en un proyecto.
Puede tener los siguientes activos de calidad de datos en el proyecto:
Antes de empezar a crear definiciones y reglas de calidad de datos, tenga en cuenta los temas siguientes:
- ¿Qué desea analizar y supervisar?
- ¿Qué elementos necesita evaluar?
- ¿Cuál es el objetivo del análisis, como comprobar la integridad, la validez, etc.?
- Permisos necesarios
- Para crear, editar o eliminar activos de calidad de datos, debe tener el permiso de usuario Gestionar activos de calidad de datos y el rol Admin o Editor en el proyecto.
Definiciones de calidad de datos
Una definición de calidad de datos representa una forma genérica de una regla de calidad de datos. Describe la evaluación o condición de la regla utilizando variables lógicas que no están vinculadas a ningún dato real. Por lo tanto, se puede utilizar en cualquier número de reglas de calidad de datos. Si cambia la definición de calidad de datos, también cambia la lógica de validación para todas las reglas derivadas de la definición.
Puede crear y gestionar definiciones de calidad de datos en proyectos. Para que una definición de calidad de datos esté disponible para su reutilización en otros proyectos, puede publicarla en un catálogo.
Propiedades para definiciones de calidad de datos
Además de las propiedades de activo comunes, las definiciones de calidad de datos tienen las propiedades siguientes en los proyectos. Los usuarios con los permisos adecuados pueden editar todas las propiedades.
Para obtener más información sobre las propiedades comunes, consulte Propiedades comunes para activos.
Propiedad | Descripción |
---|---|
Expresión de la regla | La lógica de reglas definida. Los cambios en la expresión de regla afectan a todas las reglas derivadas de esta definición de calidad de datos. |
Dimensión de calidad de datos | Opcional. Métrica de calidad de datos primaria para la lógica de reglas. La dimensión seleccionada se puede utilizar como categoría de informe, para filtrar o para visualizar datos seleccionados. |
Artefactos de gobernabilidad | Opcional. Los términos empresariales y las reglas de gobierno que los usuarios han asignado al activo. |
Reglas de calidad de datos
Una regla de calidad de datos enlaza o enlaza variables lógicas con datos reales para su evaluación. Una regla se ejecuta contra datos físicos para evaluar la calidad de los datos evaluando y validando condiciones específicas. Cada ejecución de regla proporciona estadísticas e información sobre posibles excepciones tal como se define para la tabla de salida de la regla.
Puede crear, gestionar y ejecutar reglas de calidad de datos en proyectos.
Puede crear reglas a partir de una o más definiciones de calidad de datos o puede crear reglas de calidad de datos con sentencias SQL. Las reglas creadas a partir de definiciones de calidad de datos capturan qué columnas cumplen con las condiciones de la regla y cuáles no. Las reglas basadas en SQL son más adecuadas para comprobar si hay registros no conformes.
Por ejemplo, desea validar los identificadores de impuestos. Por lo tanto, sus conceptos podrían ser TaxID existe y Validar TaxID.
Ahora, tiene estas opciones:
Crear reglas a partir de definiciones de calidad de datos. Para cualquier concepto, puede crear una definición de calidad de datos con lógica de evaluación para la variable lógica
. La primera condición es que el identificador fiscal (o TaxID) debe existir, y la segunda condición es que el identificador fiscal debe cumplir un formato definido.tax_id
Definición de calidad de datos TaxID existe :
tax_id exists
Definición de calidad de datos Validar TaxID :tax_id matches_format 'AA99-A999-9999'
A continuación, seleccione una de estas opciones:
- Para cada columna que contiene un identificador de impuestos que se va a validar, defina dos reglas de calidad de datos. La primera regla enlaza la variable lógica
de la definición TaxID existe con la columna. La segunda regla enlaza la variable lógicatax_id
de la definición Validar TaxID con la columna.tax_id
- Para cada columna que contiene un identificador de impuestos que se va a validar, defina una regla de calidad de datos y utilice ambas definiciones de calidad de datos en dicha regla. Enlace la variable lógica
en cualquiera de las definiciones TaxID existe y Validar TaxID a la columna.tax_id
- Defina una regla de calidad de datos y utilice ambas definiciones de calidad de datos en dicha regla. Enlazar la variable lógica
en cualquiera de las definiciones TaxID existe y Validar TaxID a un conjunto de parámetros del tipo Parámetro de la columna. Añada todas las columnas que contienen un identificador de impuesto que se va a validar a ese conjunto de parámetros.tax_id
- Para cada columna que contiene un identificador de impuestos que se va a validar, defina dos reglas de calidad de datos. La primera regla enlaza la variable lógica
Cree una regla basada en SQL:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Propiedades de las reglas de calidad de datos
Además de las propiedades de activos comunes, las reglas de calidad de datos tienen las propiedades siguientes en los proyectos. Los usuarios con los permisos adecuados pueden editar todas las propiedades.
Para obtener más información sobre las propiedades comunes, consulte Propiedades comunes para activos.
Propiedad | Descripción | Tipo de regla |
---|---|---|
Expresiones enlazadas | La lista de expresiones de regla. Puede ver información sobre un objetivo vinculante pasando el cursor por encima de la etiqueta en la expresión vinculada. | Regla simple |
Expresiones de regla | La lista de expresiones de regla. | Regla con enlaces externos |
Conexión SQL | La conexión con el origen de datos donde se aplicará la regla. | Regla basada en SQL |
Sentencias SQL | La consulta SQL que forma la regla. | Regla basada en SQL |
Dimensión de calidad de datos | Opcional. Métrica de calidad de datos primaria a la que contribuye la regla de calidad de datos. | Regla simple Regla con enlaces externos |
Flujo de DataStage relacionado | El flujo de DataStage que proporciona los enlaces para la regla. | Regla con enlaces externos |
Definiciones de calidad de datos | Las definiciones de calidad de datos que proporcionan las expresiones de regla. | Regla simple Regla con enlaces externos |
Artefactos de gobernabilidad | Opcional. Los términos empresariales y las reglas de gobierno que los usuarios han asignado al activo. | Regla simple Regla con enlaces externos Reglas basadas en SQL |
Relaciones | Las relaciones aparecen en la sección Objetos relacionados . Puede estar entre la regla de calidad de datos y los activos o columnas en el mismo proyecto, o entre la regla y un artefacto. Las siguientes relaciones se crean automáticamente: • Para todos los tipos de reglas, una relación Is implemented by con el flujo asociado DataStage después de la primera ejecución de la regla • Para las reglas con enlaces gestionados externamente, una relación Is implemented by con el subflujo asociado DataStage • Para reglas simples, una relación Validates data quality con cada columna enlazada. • Para reglas simples y reglas con enlaces gestionados externamente, una relación Implementa para cada una de las definiciones de calidad de datos referenciadas Añada objetos relacionados según sea necesario. La página Calidad de los datos muestra información agregada para cada columna que aparece aquí con una relación Valida la calidad de los datos. |
Regla simple Regla con enlaces externos Reglas basadas en SQL |
Salida seleccionada | Opcional. Si está configurado, las columnas de la tabla de salida de regla. | Regla simple Regla con enlaces externos Reglas basadas en SQL |
Transferencia de activos de calidad de datos entre proyectos
Puede exportar activos de calidad de datos de un proyecto e importarlos a otro, tal y como se describe en Exportación de activos de proyecto. Además de las definiciones y reglas de calidad de datos, puede seleccionar los siguientes elementos asociados a las reglas de calidad de datos que se incluirán en la exportación del proyecto:
- Conexiones
- Activos de datos que se utilizan en los enlaces
- DataStage flujos y subflujos
- Trabajos
- Activos de datos creados para tablas de salida de reglas
Los siguientes elementos no se exportan:
- Historial de ejecución de reglas
- Cualquier artefacto de gobernanza asociado a un activo de calidad de datos
- Ajustes de salida a nivel de proyecto
- Información sobre la calidad de los datos generada por reglas
Más información
Tema padre: Gestión de calidad de datos