El proceso de ordenación incluye la creación de activos de datos, la asignación de artefactos de gobernabilidad y otros metadatos a los activos de datos, la publicación de los activos de datos en un catálogo y, a continuación, la actualización de metadatos de activos a medida que cambian los datos subyacentes o el vocabulario empresarial. Después de que los encargados de datos añadan activos de datos enriquecidos de alta calidad a los catálogos, los consumidores de datos pueden encontrar y utilizar dichos activos de datos.
Aunque puede organizar los activos de datos individualmente, ese proceso no es escalable. Puede automatizar muchas tareas de ordenación con las herramientas de Metadata import y de enriquecimiento de metadatos, con las que puede descubrir, crear, enriquecer y publicar conjuntos de activos de datos.
Para automatizar la ordenación de datos tanto como sea posible, realice estas tareas para configurar un proyecto de ordenación, añadir activos de datos organizados a un catálogo y actualizar los activos de datos para mantener actualizados los metadatos:
Tarea | ¿Obligatoria? | Frecuencia |
---|---|---|
Configurar un proyecto | Sí | Única |
Añadir conexiones a orígenes de datos | Sí | Única |
Importar metadatos para crear activos de datos | Sí | Recurrente |
Enriquecer activos de datos con metadatos y otra información | Sí | Recurrente |
Resolver datos de entidad para crear una vista de 360 grados de los datos | Nee | Recurrente |
Personalizar análisis de calidad de datos | Nee | Recurrente |
Publicar activos de datos en catálogos | Sí | Recurrente |
Al crear activos de importación de metadatos y de enriquecimiento de metadatos, puede planificarlos para que se ejecuten automáticamente o ejecutarlos a petición. Puede configurar planificaciones de trabajos en la interfaz de usuario o con las API. Por ejemplo, puede planificar una importación de metadatos para una fecha y hora específicas. A continuación, puede planificar el enriquecimiento de metadatos para que se ejecuten los mismos activos una vez finalizada la importación de metadatos. Una vez completado el enriquecimiento de metadatos, revise los resultados, realice los ajustes necesarios y, a continuación, publique las actualizaciones en los activos de datos en el catálogo.
Configurar un proyecto para la ordenación
Un proyecto es un espacio de trabajo colaborativo en el que las personas trabajan con datos para cumplir un objetivo compartido.
Para mejorar la coherencia, puede crear convenios para proyectos, como por ejemplo:
- Nombres de proyecto: identifique los proyectos de forma coherente, por ejemplo, por propósito, rango de fechas o equipo.
- Requisitos del proyecto: Describa y enlace a requisitos y tareas en sistemas externos en el archivo Léame del proyecto.
- Nombres de conexión: identifique las conexiones de forma coherente, por ejemplo, por origen de datos, nombre de tabla o finalidad.
Un proyecto de ordenación de datos normalmente contiene los siguientes tipos de elementos que los encargados de datos añaden explícitamente o que se crean como resultado de un proceso:
- Activos de conexión para los orígenes de datos que contienen los datos a organizar
- Activos de datos conectados creados por la importación de metadatos
- Metadata import activos
- Activos de enriquecimiento de metadatos
- Definición de calidad de datos y activos de reglas
- Activos de flujo de DataStage creados mediante la ejecución de reglas de calidad de datos
- Activos de datos que contienen tablas de salida de regla de calidad de datos
- Activos de datos que contienen tablas de distribución de frecuencia creadas por el enriquecimiento de metadatos
- Trabajos creados mediante la ejecución de activos
Más información sobre la creación de proyectos
Añadir conexiones a orígenes de datos
Antes de que los encargados de datos puedan importar metadatos para crear activos de datos conectados, necesitan los activos de conexión para los orígenes de datos relevantes. Las fuentes de datos pueden incluir bases de datos, como Db2, o sistemas de archivos, como IBM Cloud Object Storage.
Normalmente, las organizaciones añaden conexiones al Platform assets catalog para que todos los usuarios puedan encontrarlas y utilizarlas. Por ejemplo, los ingenieros de datos pueden crear los activos de conexión en el Platform assets catalogy, a continuación, todos los usuarios pueden añadir fácilmente esas conexiones a sus proyectos. De forma alternativa, puede crear conexiones dentro de un proyecto.
Al crear conexiones, debe decidir cómo manejar las credenciales de conexión. De forma predeterminada, las credenciales de conexión se marcan como compartidas, lo que permite a todos los usuarios utilizar las mismas credenciales para acceder a los datos. Si desea que cada usuario especifique sus credenciales personales, inhabilite las credenciales compartidas al crear conexiones. Sin embargo, si las conexiones requieren credenciales personales, debe asegurarse de que los encargados de datos tengan credenciales para todas las conexiones que necesitan para la ordenación.
Cloud Pak for Data da soporte a muchas conexiones, pero no todas están soportadas para la importación de metadatos, el enriquecimiento de metadatos y el análisis de calidad de datos.
Más información sobre la adición de conexiones
Importar metadatos para crear activos de datos
Metadata import detecta todas las tablas o archivos a los que se puede acceder desde una conexión especificada a un origen de datos. Puede elegir crear activos de datos conectados para todos o para una selección de las tablas o archivos. El proceso de importación de metadatos también crea un activo de importación de metadatos que puede volver a ejecutar o especificar como entrada para el enriquecimiento de metadatos.
Normalmente, las organizaciones crean varios activos de importación de metadatos para un único origen de datos. Cada importación de metadatos contiene tablas o archivos que tienen una frecuencia similar de cambios en la estructura, el esquema o las filas de datos. A continuación, puede ejecutar cada importación de metadatos en una planificación diferente. Por ejemplo, puede crear importaciones de metadatos con las características siguientes:
- Una importación de metadatos para tablas que tienen actualizaciones frecuentes que planifica que se ejecuten semanalmente.
- Importación de metadatos para tablas con actualizaciones poco frecuentes que planifica para ejecutarse mensualmente.
- Una importación de metadatos para tablas con actualizaciones raras que se ejecutan manualmente cuando es necesario.
Vuelva a ejecutar la importación de metadatos para detectar los siguientes tipos de cambios en el origen de datos:
- Activos añadidos o eliminados
- Esquemas de tabla que se han modificado
- Actualizaciones de metadatos de activos, como por ejemplo, cambios de nombre o descripciones actualizadas
Después de volver a ejecutar la importación de metadatos, vuelva a ejecutar el enriquecimiento de metadatos.
Más información sobre la importación de metadatos
Enriquecer activos de datos con metadatos y otra información
El enriquecimiento de metadatos añade información a los activos de datos conectados. Puede ejecutar fácilmente el enriquecimiento de metadatos en todas las tablas o archivos que ha creado con la importación de metadatos estableciendo la importación de metadatos como ámbito de datos. El proceso de enriquecimiento de metadatos también crea un trabajo de enriquecimiento de metadatos que puede volver a ejecutar.
Normalmente, las organizaciones crean un enriquecimiento de metadatos para cada importación de metadatos. A continuación, puede sincronizar fácilmente las planificaciones de importación de metadatos y enriquecimiento de metadatos. Sin embargo, puede crear enriquecimientos de metadatos para un único activo de datos conectado, como una tabla virtualizada.
Cuando ejecuta el enriquecimiento de metadatos en activos de datos, la información se añade en función de las opciones de enriquecimiento seleccionadas:
- Sólo perfiles: Añade clases de datos y estadísticas, y sugiere claves primarias.
- Ampliación de metadatos: Genera nombres de visualización y descripciones.
- Análisis y creación de perfiles de calidad: añade puntuaciones de calidad, clases de datos y estadísticas.
- Asignación de términos: Asigna términos y clasificaciones en función de los métodos seleccionados. La asignación de términos basada en las relaciones con las clases de datos requiere la elaboración de perfiles. En el caso de las asignaciones trimestrales basadas en la IA, los metadatos también deben ampliarse. En cualquier caso, los términos pueden asignarse mediante un algoritmo de aprendizaje automático y coincidencia de nombres.
- Generación de relaciones: Identifica claves primarias y foráneas y sugiere relaciones entre activos.
- Supervisión de la calidad de los datos: Comprueba si la calidad de los datos cumple los acuerdos de nivel de servicio de calidad de datos definidos e informa de las infracciones. Podría activarse un flujo de trabajo de corrección.
Puede equilibrar la precisión frente a la velocidad estableciendo el tamaño de muestreo de los datos. Cuanto mayor sea el tamaño de muestreo de los datos, más precisa será la clase de datos y las asignaciones de términos de negocio y el análisis de calidad de datos, pero el trabajo de enriquecimiento de metadatos más largo durará.
Aunque puede especificar que se asignen automáticamente clases de datos y términos empresariales, debe revisar los resultados. Las asignaciones precisas de clases de datos y términos empresariales son fundamentales. De lo contrario, es posible que la información confidencial no esté enmascarada o protegida por las reglas de protección de datos. Cuanto más ejecute el enriquecimiento de metadatos y ajuste la clase de datos y las asignaciones de términos empresariales, más preciso será el algoritmo de asignación automática.
Vuelva a ejecutar el enriquecimiento de metadatos y el análisis de calidad de datos estándar en estas circunstancias:
- Después de volver a ejecutar la importación de metadatos. En función del número de cambios en los datos que espera, vuelva a ejecutar el enriquecimiento de metadatos en todo el ámbito de datos de la importación, o sólo en los datos nuevos o cambiados, por ejemplo, para recoger nuevas tablas o columnas. Los cambios en los valores de datos de una columna pueden afectar a las puntuaciones de calidad de datos o a la clase de datos y a las asignaciones de términos de negocio.
- Después de cambios en las clases de datos y términos empresariales disponibles. Los cambios en las clases de datos y los términos empresariales pueden afectar a sus asignaciones a columnas.
Los trabajos de enriquecimiento de metadatos pueden tardar mucho tiempo, en función del tamaño de los datos. También consumen recursos de cálculo que se facturan a su cuenta.
Más información sobre el enriquecimiento de metadatos
Resolver datos de entidad para crear una vista de 360 grados de los datos
Para asegurarse de que sus usuarios y sistemas tienen una vista total, fiable y unificada de sus datos de cliente, utilice IBM Match 360 para comparar y consolidar datos de orígenes dispares y establecer una vista de 360 grados de sus datos, conocidos como datos maestros.
Defina el modelo de datos para los datos maestros y, a continuación, cargue los activos de datos de toda la empresa y correlaciónelos con el modelo. A continuación, empiece a configurar el sistema para que cumpla los requisitos exclusivos de su organización. Configure el algoritmo de coincidencia y ejecútelo para crear entidades de datos maestros. Revise las estadísticas y los gráficos proporcionados para evaluar los resultados de coincidencia. En función de los resultados, puede ajustar más el algoritmo y mejorar los resultados coincidentes completando revisiones de pares o cambiando las ponderaciones y umbrales coincidentes.
Cuando haya perfeccionado el algoritmo de coincidencia, los usuarios empresariales pueden buscar y explorar los datos maestros para obtener información clave. Los encargados de datos pueden editar, mantener y remediar los datos y, a continuación, exportarlos como datos conectados o en formato CSV para utilizarlos en otros lugares.
Más información sobre la resolución de datos de entidad
- Más información sobre cómo trabajar con datos maestros
- Definir el modelo de datos y Cargar activos de datos
- Configurar y ajustar el algoritmo de coincidencia
- Entrenar el algoritmo de coincidencia revisando pares de registros
- Explore, mantenga y exporte sus datos de confianza
- Remediar coincidencias potenciales para mejorar la calidad de los datos
Personalizar análisis de calidad de datos
Para personalizar el análisis de calidad de datos, cree y ejecute reglas de calidad de datos. Cada regla de calidad de datos se aplica a los activos de datos de un único origen de datos o a un único activo de datos de un archivo. Ejecute sus reglas de calidad de datos como DataStage fluye, lo que requiere la DataStage servicio. Con DataStage, puede ejecutar reglas de calidad de datos en las regiones admitidas. Con DataStage as a Service Anywhere, puede ejecutar reglas de calidad de datos fuera de IBM Cloud mediante motores remotos. Para obtener más información sobre la configuración de motores remotos, consulte la documentación deDataStage as a Service Anywhere.
El formato y la forma en que define las condiciones de regla de calidad de datos depende del tipo de resultados que desee recibir.
Resultado | Formato | Método |
---|---|---|
Devuelve el grado en el que las columnas cumplen las condiciones de la regla. | Definiciones de calidad de datos | Puede crear activos de definición de calidad de datos a los que hace referencia en una o más reglas de calidad de datos. Puede especificar la lógica de reglas organizando elementos de bloque en un lienzo o especificando una expresión en un editor de formato libre. |
Devuelve las columnas que fallan las condiciones de regla. | Sentencias SQL | Las sentencias SQL se especifican en cada regla de calidad de datos. |
Si crea reglas de calidad de datos que contienen definiciones de calidad de datos, tiene las opciones siguientes:
- Reutilice la misma definición de calidad de datos varias veces en una regla de calidad de datos.
- Incluir varias definiciones de calidad de datos en una regla de calidad de datos.
- Publicar definiciones de calidad de datos en un catálogo y reutilizarlas en varios proyectos.
- Cree reglas simples que vinculen datos directamente y, opcionalmente, cree uniones para enlaces.
- Cree reglas complejas donde los datos se procesen previamente en flujos de DataStage y la salida se pueda direccionar a enlaces de salida de DataStage .
- Cree uniones para que los enlaces utilicen datos de varias tablas en la tabla de salida.
- Cree conjuntos de parámetros en un proyecto para gestionar los valores literales y las columnas que enlaza a las variables de regla. También puede publicar el conjunto de parámetros en un catálogo y reutilizarlo en varios proyectos.
- Establezca el número máximo de registros a evaluar y el método de muestreo.
Puede elegir enviar la salida de regla de calidad de datos a una base de datos externa para mantener un registro detallado de los resultados de la regla. Por ejemplo, es posible que desee ejecutar informes o enviar la información a un equipo de gestión de datos para la corrección de calidad.
Más información sobre el análisis de calidad de datos
Publicar activos de datos en un catálogo
Puede publicar varios activos de datos enriquecidos en un catálogo en una operación desde dentro del activo de enriquecimiento de metadatos o desde la pestaña Activos del proyecto.
Las principales diferencias entre la publicación desde la pestaña Activos y desde un activo de enriquecimiento de metadatos se encuentran en el manejo de activos duplicados. La tabla siguiente compara las opciones que tiene y sus efectos.
Método de publicación | ¿Publicación masiva? | Opciones de manejo de duplicados | Asignaciones de términos de negocio |
---|---|---|---|
Separador Activos | Sí, puede seleccionar varios activos para publicarlos juntos. | • Actualizar activos originales • Sobrescribir activos originales • Permitir duplicados (si los valores del catálogo incluyen esta opción) • Conservar activos originales y rechazar duplicados |
Las asignaciones de términos empresariales originales se pueden eliminar. |
Activo de enriquecimiento de metadatos | Sí, puede seleccionar varios activos para publicarlos juntos. | Actualizar activos originales | Los términos empresariales del nuevo activo se añaden al activo original. No se elimina ninguna asignación de término de negocio original. |
Más información sobre la publicación en un catálogo
Importar el linaje de los activos de datos del catálogo
El linaje es la información sobre la procedencia de los datos, cómo cambian y hacia dónde se mueven con el tiempo. Puede importar información de linaje para los activos de datos que haya importado, enriquecido y publicado en un catálogo. El linaje de datos debe estar activado. Para importar el linaje, se crea una importación de metadatos con la opción Importar metadatos de linaje. El servicio de linaje escanea la fuente de datos de destino y analiza el flujo de datos. Estos metadatos de linaje se importan con los activos de datos y, si están disponibles, con cualquier script de transformación.
Normalmente, las organizaciones vuelven a ejecutar la importación de metadatos para capturar la información de linaje después de ejecutar la importación y el enriquecimiento de metadatos y publicar los activos de datos actualizados.
Más información sobre la importación de linajes
Tareas de planificación anteriores
Tareas de planificación siguientes
Tema principal: Planificación de la implementación del gobierno de datos