Diseñar activos de calidad de datos para analizar y supervisar la calidad de datos en un proyecto.
Puede tener los siguientes activos de calidad de datos en el proyecto:
Antes de empezar a crear definiciones y reglas de calidad de datos, tenga en cuenta los temas siguientes:
- ¿Qué desea analizar y supervisar?
- ¿Qué elementos necesita evaluar?
- ¿Cuál es el objetivo del análisis, como comprobar la integridad, la validez, etc.?
- Permisos necesarios
- Para crear, editar o suprimir activos de calidad de datos, debe tener el rol Gestionar activos de calidad de datos permiso de usuario y el rol Admin o el rol Editor en el proyecto.
Definiciones de calidad de datos
Una definición de calidad de datos representa una forma genérica de una regla de calidad de datos. Describe la evaluación o condición de la regla utilizando variables lógicas que no están vinculadas a ningún dato real. Por lo tanto, se puede utilizar en cualquier número de reglas de calidad de datos. Si cambia la definición de calidad de datos, también cambia la lógica de validación para todas las reglas derivadas de la definición.
Puede crear y gestionar definiciones de calidad de datos en proyectos. Para que una definición de calidad de datos esté disponible para su reutilización en otros proyectos, puede publicarla en un catálogo.
Propiedades para definiciones de calidad de datos
Además de las propiedades de activo comunes, las definiciones de calidad de datos tienen las propiedades siguientes en los proyectos. Los usuarios con los permisos adecuados pueden editar todas las propiedades.
Para obtener más información sobre las propiedades comunes, consulte Propiedades comunes para activos.
Propiedad | Descripción |
---|---|
Expresión de la regla | La lógica de reglas definida. Los cambios en la expresión de regla afectan a todas las reglas derivadas de esta definición de calidad de datos. |
Dimensión de calidad de datos | Opcional. Métrica de calidad de datos primaria para la lógica de reglas. La dimensión seleccionada se puede utilizar como categoría de informe, para filtrar o para visualizar datos seleccionados. |
Artefactos de gobernabilidad | Opcional. Los términos empresariales y las reglas de gobierno que los usuarios han asignado al activo. |
Reglas de calidad de datos
Una regla de calidad de datos enlaza o enlaza variables lógicas con datos reales para su evaluación. Una regla se ejecuta contra datos físicos para evaluar la calidad de los datos evaluando y validando condiciones específicas. Cada ejecución de regla proporciona estadísticas e información sobre posibles excepciones tal como se define para la tabla de salida de la regla.
Puede crear, gestionar y ejecutar reglas de calidad de datos en proyectos.
Puede crear reglas a partir de una o más definiciones de calidad de datos o puede crear reglas de calidad de datos con sentencias SQL. Las reglas creadas a partir de definiciones de calidad de datos capturan qué columnas cumplen con las condiciones de la regla y cuáles no. Las reglas basadas en SQL son más adecuadas para comprobar si hay registros no conformes.
Por ejemplo, desea validar los identificadores de impuestos. Por lo tanto, sus conceptos podrían ser TaxID existe y Validar TaxID.
Ahora, tiene estas opciones:
Crear reglas a partir de definiciones de calidad de datos. Para cualquier concepto, puede crear una definición de calidad de datos con lógica de evaluación para la variable lógica
tax_id
. La primera condición es que el identificador fiscal (o TaxID) debe existir, y la segunda condición es que el identificador fiscal debe cumplir un formato definido.La definición de calidad de datos TaxID existe:
tax_id exists
Definición de calidad de datos Validar TaxID:tax_id matches_format 'AA99-A999-9999'
A continuación, seleccione una de estas opciones:
- Para cada columna que contiene un identificador de impuestos que se va a validar, defina dos reglas de calidad de datos. La primera regla enlaza la variable lógica
tax_id
de la definición TaxID existe con la columna. La segunda regla enlaza la variable lógicatax_id
de la definición Validar TaxID con la columna. - Para cada columna que contiene un identificador de impuestos que se va a validar, defina una regla de calidad de datos y utilice ambas definiciones de calidad de datos en dicha regla. Enlace la variable lógica
tax_id
en cualquiera de las definiciones TaxID existe y Validar TaxID a la columna. - Defina una regla de calidad de datos y utilice ambas definiciones de calidad de datos en dicha regla. Enlazar la variable lógica
tax_id
en cualquiera de las definiciones TaxID existe y Validar TaxID a un conjunto de parámetros del tipo Parámetro de la columna. Añada todas las columnas que contienen un identificador de impuesto que se va a validar a ese conjunto de parámetros.
- Para cada columna que contiene un identificador de impuestos que se va a validar, defina dos reglas de calidad de datos. La primera regla enlaza la variable lógica
Cree una regla basada en SQL:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Propiedades de las reglas de calidad de datos
Además de las propiedades de activos comunes, las reglas de calidad de datos tienen las propiedades siguientes en los proyectos. Los usuarios con los permisos adecuados pueden editar todas las propiedades.
Para obtener más información sobre las propiedades comunes, consulte Propiedades comunes para activos.
Propiedad | Descripción | Tipo de regla |
---|---|---|
Expresiones enlazadas | La lista de expresiones de regla. Para reglas simples, puede ver información sobre un destino de enlace pasando el cursor por encima del código en la expresión enlazada. | Regla simple Regla con enlaces externos |
Conexión SQL | La conexión con el origen de datos donde se aplicará la regla. | Regla basada en SQL |
Sentencias SQL | La consulta SQL que forma la regla. | Regla basada en SQL |
Dimensión de calidad de datos | Opcional. Métrica de calidad de datos primaria a la que contribuye la regla de calidad de datos. | Regla simple Regla con enlaces externos |
Flujo de DataStage relacionado | El flujo de DataStage que proporciona los enlaces para la regla. | Regla con enlaces externos |
Definiciones de calidad de datos | Las definiciones de calidad de datos que proporcionan las expresiones de regla. | Regla simple Regla con enlaces externos |
Artefactos de gobernabilidad | Opcional. Los términos empresariales y las reglas de gobierno que los usuarios han asignado al activo. | Regla simple Regla con enlaces externos Reglas basadas en SQL |
Relaciones | Las relaciones aparecen en la sección Objetos relacionados . Puede estar entre la regla de calidad de datos y activos o columnas en el mismo proyecto, o entre la regla y un artefacto. Las siguientes relaciones se crean automáticamente: • Para todos los tipos de regla, una relación Se implementa mediante con el flujo de DataStage asociado después de la primera ejecución de la regla • Para reglas con enlaces gestionados externamente, una relación Se implementa mediante con el subflujo de DataStage asociado • Para reglas simples, una relación Valida la calidad de datos de con cada columna enlazada y con el activo que contiene la columna. Para reglas simples y reglas con enlaces gestionados externamente, una relación Implementa para cada una de las definiciones de calidad de datos referenciadas Añada objetos relacionados según sea necesario. La página Calidad de datos muestra información agregada para cada activo o columna relacionada que se lista aquí con una relación Valida la calidad de datos de . |
Regla simple Regla con enlaces externos Reglas basadas en SQL |
Salida seleccionada | Opcional. Si está configurado, las columnas de la tabla de salida de regla. | Regla simple Regla con enlaces externos Reglas basadas en SQL |
Más información
Tema padre: Gestión de calidad de datos