0 / 0
Volver a la versión inglesa de la documentación
Evaluación de la calidad de datos
Última actualización: 13 dic 2024
Evaluación de la calidad de datos

Para determinar si los datos son de buena calidad, compruebe hasta qué punto los datos cumplen sus expectativas e identifique anomalías en los datos. La evaluación de la calidad de sus datos también le ayuda a conocer la estructura y el contenido de sus datos.

Ejecute reglas de calidad de datos para evaluar los datos basándose en las condiciones definidas. El tipo de regla determina de dónde pueden proceder los datos.

  • Reglas que se crean a partir de definiciones de calidad de datos

    Puede ejecutar reglas complejas con enlaces gestionados externamente en activos de datos desde cualquier conector soportado por DataStage. Consulte Conectores deDataStage.

    Para las reglas simples en las que enlaza los datos directamente, se da soporte a las conexiones listadas en Conectores soportados .

    Además, puede trabajar con activos de datos de archivos en formato CSV cargados desde el sistema de archivos local o desde conexiones basadas en archivos a los orígenes de datos.

  • Reglas basadas en SQL

    Para ver los tipos de base de datos soportados, consulte Conectores soportados.

Para que una regla de calidad de datos con enlaces externos o una regla de calidad de datos basada en SQL contribuya a las puntuaciones de calidad de datos de un activo o una columna, añada ese activo o columna como elemento relacionado a la regla correspondiente. Utiliza el tipo de relación Valida la calidad de los datos de.

Servicios necesarios

IBM Knowledge Catalog '
DataStage o DataStage as a Service Anywhere '
Con DataStage, puede ejecutar reglas de calidad de datos en las regiones compatibles. Con DataStage as a Service Anywhere, puede ejecutar reglas de calidad de datos fuera de IBM Cloud mediante motores remotos. Para obtener más información sobre la configuración de motores remotos, consulte la documentación deDataStage as a Service Anywhere.

Permisos necesarios

Para ejecutar reglas de calidad de datos, debe tener el rol Admin o el rol Editor en el proyecto. Además, debe tener Ejecutar reglas de calidad de datos permiso de usuario Además, debe tener autorización para acceder a las conexiones con los orígenes de datos de los activos de datos que se van a comprobar.

Para ver los datos que causaron problemas de calidad de datos (la tabla de salida) desde el historial de ejecución de reglas o la página Calidad de datos, debe tener el permiso Desglosar para ver los detalles del problema usuario. Sin embargo, el activo de datos en el proyecto que se crea para la tabla de salida es accesible por cualquiera que pueda acceder a la conexión. Para limitar el acceso a este activo de datos, la conexión a la fuente de datos donde se almacena la tabla de salida debe configurarse con credenciales personales.

También puede completar las tareas siguientes con las API en lugar de la interfaz de usuario. Los enlaces a estas API se listan en la sección Más información .

Ejecución de reglas de calidad de datos

La ejecución de una regla de calidad de datos requiere un flujo de DataStage y, posteriormente, un trabajo de DataStage . El trabajo con valores de trabajo predeterminados se crea automáticamente cuando ejecuta la regla por primera vez desde dentro del activo. Se añade al proyecto un trabajo de DataStage con el nombre predeterminado DataStage flow of data rule <rulename>.DataStage job .

Después de la ejecución inicial, puede modificar los valores del trabajo según sea necesario, por ejemplo, para configurar ejecuciones planificadas. O bien, es posible que desee ajustar el número de avisos que son aceptables antes de que finalice el trabajo, que es 100 de forma predeterminada. Para cambiar los valores del trabajo, vaya a la página de detalles del trabajo y pulse el icono de lápiz en la barra de herramientas. Puede acceder a la página de detalles del trabajo pulsando el nombre del trabajo en el historial de ejecución de la regla o en la página Trabajos del proyecto.

También puede crear trabajos de DataStage adicionales para la regla manualmente, ya sea desde el menú de desbordamiento de la regla en el proyecto o, al abrir el activo, desde el menú de desbordamiento situado junto al nombre del activo. Consulte Creación de trabajos para ejecutar reglas de calidad de datos.

Para confirmar que una regla sigue siendo válida antes de ejecutarla manualmente, puede comprobar el estado de la regla seleccionando Validar en el menú de desbordamiento.

Puede ejecutar una regla de una de estas maneras:

  • Abra la regla de calidad de datos y pulse Ejecutar regla. Utilice esta opción para la ejecución inicial de la regla para crear el trabajo de DataStage asociado.
  • Seleccione Ejecutar en el menú de desbordamiento de reglas del proyecto.
  • Vaya a la página Trabajos del proyecto, abra los detalles del trabajo y ejecútelo haciendo clic en el icono Ejecutar ' icono de ejecución de la barra de acciones.

También puede automatizar las comprobaciones de calidad configurando trabajos con una planificación repetitiva para ejecutar una regla.

Las reglas se ejecutan con credenciales de IBM Cloud . Normalmente, la clave de API de IBM Cloud personal se utiliza para ejecutar estas operaciones de larga ejecución sin interrupciones. Si las credenciales no están disponibles al crear el trabajo, se le solicitará que cree una clave de API. A continuación, dicha clave de API se guarda como credenciales de tarea.

Normas de agrupación

Puede agrupar determinadas reglas de calidad de datos en un único flujo DataStage para su ejecución:

  • Las reglas de calidad de datos deben crearse a partir de definiciones de calidad de datos.

  • Las variables de la regla deben estar vinculadas a un único activo de datos del proyecto:

    • Un único archivo de uno de estos conectores de almacenamiento de archivos: Amazon S3, Apache HDFS, Azure Data Lake Storage o Google Cloud Storage
    • Un archivo cargado desde el sistema de archivos local
    • Un único activo de datos relacionales

Dependiendo de la configuración de las reglas individuales de calidad de datos que agrupe, la ejecución de las reglas puede requerir múltiples pasadas sobre los datos.

No se pueden agrupar reglas de calidad de datos vinculadas a varios activos de datos.

Puede utilizar la siguiente llamada a la API para agrupar reglas para su ejecución:

POST /data_quality/v3/projects/{project_id}/execute_rules

Esta llamada a la API requiere los siguientes parámetros:

project_id

El ID del proyecto que contiene las reglas

Cuerpo de solicitud

La carga útil en el siguiente formato:

{
  "rules": [
    {
      "id": "<rule1_id>"
    },
    {
      "id": "<rule2_id>"
    }
  ]
}

Pushdown del procesamiento en reglas de calidad de datos

Ciertos aspectos del procesamiento de reglas de calidad de datos se pueden trasladar al origen de datos para reducir la cantidad de datos que se transfieren fuera del origen y acelerar el procesamiento. La selección de columnas, la creación de uniones entre diferentes activos de datos y el muestreo se envían a las fuentes de datos con un sistema de gestión de bases de datos relacionales (RDBMS), lo que significa que admiten consultas SQL. para fuentes de datos basadas en archivos, no se detiene ningún procesamiento. Las reglas de calidad de datos basadas en SQL siempre se ejecutan en la fuente de datos.

Con DataStage as a Service Anywhere, puede ejecutar reglas de calidad de datos fuera de IBM Cloud mediante motores remotos. Para obtener más información sobre la configuración de motores remotos, consulte la documentación deDataStage as a Service Anywhere.

Selección de columna

Para fuentes de datos RDBMS, una declaración SQL SELECT comoselect colA, colB from schema1.table1 se ejecuta en la fuente de datos para recuperar solo las columnas requeridas de una tabla. Estas consultas no se pueden ejecutar en activos de datos desde conexiones de almacenamiento de archivos. Para dichos archivos, se recuperan todas las columnas y el DataStage La etapa de modificación se utiliza para filtrar las columnas.

Uniones

Si una regla de calidad de datos tiene dos o más variables que están vinculadas a múltiples activos de datos, estos activos de datos deben unirse en determinadas columnas.

Para fuentes de datos RDBMS, una declaración SQL SELECT con una cláusula JOIN comoSELECT col1, col2 FROM schema1.table1 INNER JOIN schema1.table2 ON table1.id = table2.id se ejecuta en la fuente de datos. Con esta consulta, la unión de los activos de datos se realiza en la fuente de datos. Algunas fuentes de datos RDBMS no admiten el procesamiento JOIN en absoluto o solo admiten ciertos tipos de cláusulas JOIN. Por ejemplo, Google BigQuery no admite cláusulas JOIN en absoluto.

Los resultados de las reglas de calidad de datos con uniones también dependen de cómo la fuente de datos RDBMS maneja valores como null y cadenas vacías durante el procesamiento de JOIN.

Para un activo de datos de una conexión de almacenamiento de archivos, se recuperan todos los registros de cada activo de datos individual y el DataStage La etapa de unión se utiliza para unir los activos de datos.

Muestreo

Para las fuentes de datos RDBMS, el muestreo aleatorio y secuencial se realiza en la fuente de datos. Para el muestreo secuencial, se agrega a la declaración SQL una cláusula específica de RDBMS para seleccionar los registros, por ejemplo, FETCH FIRST o LIMIT.

Para un activo de datos de una conexión de almacenamiento de archivos, se recuperan todos los registros y se DataStage La etapa de muestra se utiliza para crear la muestra.

Comprobación del historial de ejecución

Cada vez que ejecuta una regla de datos, se crea un registro de ejecución. Estos registros de ejecución se listan en el historial de ejecución de una regla para que pueda ver cómo han cambiado los resultados con cada ejecución. Para ver los registros de ejecución, abra la regla de calidad de datos y vaya a la pestaña Historial de ejecución . Cada registro de ejecución proporciona esta información:

  • La hora de inicio de la regla se ejecuta como un hiperenlace. Pulse el enlace para acceder a los minoristas de ejecución de trabajos.
  • El nombre del trabajo de DataStage correspondiente como un hiperenlace. Pulse el enlace para acceder a los detalles del trabajo.
  • El estado de la ejecución.
  • Para reglas que se han creado a partir de definiciones de calidad de datos:
    • El número de registros que se han probado.
    • El número de registros y el porcentaje de registros probados que cumplen la regla.
    • El número de registros y el porcentaje de registros probados que no cumplían la regla.
  • Para reglas basadas en SQL:
    • El número de registros devueltos por la sentencia select en la columna Regla no cumplida .

Todos los registros de ejecución se guardan y almacenan hasta que los suprime. Considere la posibilidad de limpiar el historial de ejecución de forma regular para ahorrar espacio. Puede suprimir los registros de ejecución seleccionados o todos los registros de ejecución a la vez. Cuando suprime un registro de ejecución, también se suprimen los detalles de ejecución del trabajo correspondiente.

Comprobación de la tabla de salida de reglas

Si se define una tabla de salida para la regla, la salida de regla se graba en una tabla de base de datos tal como se ha configurado. Consulte el paso para configurar los valores de salida en Creación de reglas a partir de definiciones de calidad de datos o Creación de reglas basadas en SQL.

La tabla de salida también se añade al proyecto como un activo de datos. Puede acceder a la tabla de salida de una de estas maneras:

  • Vaya al historial de ejecución de la regla y pulse Ver tabla de salida. Puede descargar la salida de regla como un archivo CSV, por ejemplo, para utilizarla en un programa de hoja de cálculo si desea buscar o filtrar la salida que contiene un gran número de registros. La página de salida también proporciona un enlace al activo de datos correspondiente en el proyecto.
  • Abra la tabla de salida en el proyecto. Buscar un activo de datos con el mismo nombre que la tabla de salida definida en la regla.
  • Acceda a la tabla de la base de datos utilizando consultas de base de datos nativa.

Más información

Tema padre: Gestión de calidad de datos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información