Mida, supervise y mantenga la calidad de sus datos para asegurarse de que los datos cumplen sus expectativas y estándares para casos de uso específicos.
Los datos de buena calidad se encuentran en un estado que normalmente se puede definir como apto para su uso, sin defectoso cumpliendo con las expectativas y requisitos. La calidad de datos se mide con las dimensiones de calidad predeterminadas Precisión, Completitud, Coherencia, Puntualidad, Exclusividady Validez, y cualquier dimensión de calidad personalizada.
El análisis de calidad de datos proporciona respuestas a estas preguntas:
- ¿Qué tan buena es la calidad general de un activo de datos?
- ¿Cuál de los activos de datos tiene mejor calidad?
- ¿Cómo ha cambiado la calidad de un activo de datos a lo largo del tiempo?
Requisitos y restricciones
Para la gestión de calidad de datos, existen los siguientes requisitos y restricciones.
Servicios necesarios
La gestión de la calidad de los datos requiere estos servicios:
- IBM Knowledge Catalog
- DataStage o DataStage as a Service Anywhere
' Con DataStage, puede ejecutar reglas de calidad de datos en las regiones soportadas. Con DataStage as a Service Anywhere, puede ejecutar reglas de calidad de datos fuera de IBM Cloud mediante motores remotos. Para obtener más información sobre la configuración de motores remotos, consulte la documentación deDataStage as a Service Anywhere.
Herramientas de calidad de datos
Trabaja con estas herramientas:
Formato de datos
Se da soporte a los siguientes formatos de datos:
- Tablas de orígenes de datos relacionales y no relacionales
- Tabular: Avro, CSV, Parquet, ORC; para activos de datos cargados desde el sistema de archivos local, solo CSV
Para obtener información sobre los conectores soportados, consulte Orígenes de datos soportados para la ordenación y la calidad de datos.
Tamaño de los datos
Las tareas de gestión de calidad de datos se pueden realizar en datos de cualquier tamaño.
Permisos necesarios
Los roles determinan qué tareas de gestión de calidad de datos puede realizar:
- Para ver definiciones y reglas de calidad de datos, debe tener al menos el rol Visor en el proyecto.
- Para crear, editar o suprimir definiciones y reglas de calidad de datos, debe tener el rol Admin o el rol Editor en el proyecto. Además, debe tener el permiso de usuario Gestionar activos de calidad de datos .
- Para ejecutar reglas de calidad de datos, debe tener el rol Administrador o Editor en el proyecto y el Ejecutar reglas de calidad de datos permiso de usuario.
- Para ver los datos que causaron problemas de calidad de datos (la tabla de salida) desde el historial de ejecución de reglas o la página Calidad de datos, debe tener el permiso Desglosar para ver los detalles del problema usuario. Sin embargo, el activo de datos en el proyecto que se crea para la tabla de salida es accesible por cualquiera que pueda acceder a la conexión. Para limitar el acceso a este activo de datos, la conexión a la fuente de datos donde se almacena la tabla de salida debe configurarse con credenciales personales.
- Para crear, editar o eliminar reglas SLA de calidad de datos, debe tener estos permisos de usuario :
- Acceso a artefactos de gobernabilidad
- Gestión de las normas SLA de calidad de datos
Espacios de trabajo
Puede realizar tareas de gestión de calidad de datos en proyectos. La información de calidad de datos de sólo lectura está disponible en los catálogos.
Análisis y supervisión de la calidad de los datos
Utilice el análisis y la supervisión de calidad de datos para evaluar los datos en función de criterios específicos. Utilice estos criterios de evaluación repetidamente a lo largo del tiempo para ver cambios importantes en la calidad de los datos que se están validando.
Después de que se haya diseñado una comprobación de calidad de datos, tiene estas opciones:
Cree una definición de calidad de datos que defina la lógica de la comprobación de datos independientemente del origen de datos. La definición contiene variables lógicas o referencias que puede enlazar o vincular a datos reales (por ejemplo, origen de datos, tabla y columna o tablas unidas) cuando crea una regla de calidad de datos que se puede ejecutar.
Después de crear una regla de calidad de datos con los enlaces necesarios basados en una definición de calidad de datos seleccionada, dicha regla se puede ejecutar. La regla genera estadísticas relevantes y puede generar una tabla de salida, en función de la configuración de la regla.
Cree una regla de calidad de datos basada en SQL.
La funcionalidad de una regla de calidad de datos puede ir desde una simple prueba de una sola columna hasta la evaluación de varias columnas dentro y entre orígenes de datos.
Evaluación de la calidad de datos
Para determinar si los datos son de buena calidad, compruebe hasta qué punto los datos cumplen sus expectativas e identifique anomalías en los datos. La evaluación de la calidad de sus datos también le ayuda a conocer la estructura y el contenido de sus datos.
Control de la calidad de los datos
Para garantizar que los datos importantes cumplen las expectativas de calidad de su organización, aplique reglas de SLA de calidad de datos que supervisen el cumplimiento de las normas por parte de sus datos y puedan prever la corrección de los problemas de calidad de datos detectados.
Más información
- Activos de calidad de datos:
- Gestión de definiciones de calidad de datos
- Gestión de reglas de calidad de datos
- Evaluación de la calidad de datos
- Cumplimiento y corrección de las normas SLA sobre calidad de datos
Tema principal: Preparación de datos