0 / 0
Volver a la versión inglesa de la documentación
Diseño de importaciones de metadatos
Última actualización: 10 oct 2024
Diseño de importaciones de metadatos

Al importar metadatos, debe decidir qué tipo de metadatos importar, el destino y ámbito de importación, si se deben planificar los trabajos de importación y cómo desea personalizar el comportamiento de importación.

Objetivos de importación

El primer paso para importar metadatos es definir los objetivos de la importación. Debe decidir qué tipo de metadatos importar y si desea trabajar con los activos importados en un proyecto o publicarlos directamente en un catálogo.

Normalmente, la importación de metadatos forma parte de un plan de ordenación de datos más grande. Por ejemplo, después de importar metadatos para activos de datos, puede añadir metadatos de negocio a los activos de datos importados ejecutando el enriquecimiento de metadatos. También puede ejecutar reglas de calidad de datos. Por último, puede publicar los activos de datos completados en un catálogo para compartirlos con su organización. Antes de diseñar la importación de metadatos, asegúrese de que comprende las implicaciones de sus opciones en el plan de ordenación global. Consulte Planificación de la ordenación.

Por ejemplo, un proceso de ordenación típico para activos de datos incluye las tareas siguientes:

  1. Ejecute la importación de metadatos con la opción Importar metadatos de activos para añadir activos de datos a un proyecto.
  2. Ejecute el enriquecimiento de metadatos en los activos de datos para perfilar los datos, para realizar análisis de calidad de datos básicos y para proporcionar contexto empresarial a través de la asignación de términos.
  3. Ejecutar reglas de calidad de datos en los activos.
  4. Publicar los activos en un catálogo.
  5. Ejecute la importación de metadatos para los mismos activos de datos con la opción Importar metadatos de linaje para añadir información de linaje a esos activos en el catálogo.

Puede añadir otros tipos de activos directamente a un catálogo porque el enriquecimiento de metadatos y la evaluación de calidad de datos no son aplicables. Puede elegir las opciones Importar metadatos de activos e Importar metadatos de linaje para importar simultáneamente los metadatos técnicos y de linaje de los activos mientras los añade a un catálogo.

Puede elegir entre los siguientes métodos de importación:

Importar metadatos de activos
Los metadatos técnicos de los activos proporcionan información para los detalles de los activos, las relaciones y la vista previa de los activos. Puede añadirlo a un proyecto para su posterior procesamiento o publicarlo en un catálogo inmediatamente después de la importación.
Importar metadatos de linaje
Los metadatos de linaje proporcionan información sobre el flujo de datos, de dónde proceden, cómo cambian y hacia dónde se mueven con el tiempo. Los metadatos de linaje se almacenan en el repositorio de linaje.
Before you can import lineage metadata, you must configure data lineage. Para obtener más información, consulte Configuración del linaje de datos.

Importar destino

Puedes importar metadatos al proyecto en el que estés trabajando o a cualquier catálogo en el que tengas un rol de editor o administrador.

Proyectos

En los proyectos, puede ejecutar reglas de enriquecimiento de metadatos y de calidad de datos en los activos de datos. Publique los activos de datos importados en un catálogo después de que esté satisfecho con sus asignaciones de metadatos de negocio y calidad de datos.

La información sobre linajes está disponible en catálogos y proyectos. La información sobre el linaje sólo está disponible en los proyectos si los activos tienen un linaje importado mediante la Metadata import

Si su proyecto está marcado como sensible, sólo podrá importar metadatos al proyecto, no a un catálogo. Para más información, consulte Marcar un proyecto como sensible.

Catálogos

Si conoce bien el contenido de los activos de datos y no desea ejecutar el enriquecimiento de metadatos o las reglas de calidad de datos, puede importar sus metadatos directamente en el catálogo. Una vez finalizada la importación, los activos estarán disponibles públicamente en el catálogo seleccionado.

Puede importar metadatos a cualquier catálogo para el que tenga un rol de editor o administrador, excepto cuando el catálogo forme parte de un proyecto marcado como sensible.

Si importa a un catálogo, asegúrese de que el catálogo de destino tiene un conjunto de manejo de activos duplicado para actualizar los activos originales en lugar de permitir activos duplicados. Consulte Manejo de activos duplicados.

Si desea que se apliquen las reglas de protección de datos en los activos de datos importados, debe seleccionar un catálogo gobernado como destino de importación.

Origen de datos

Para consultar la lista de fuentes de datos compatibles, véase Fuentes de datos compatibles para la curación y la calidad de los datos.

Para conectarse a la fuente de datos, debe especificar los siguientes detalles:

  • Definición de la fuente de datos. Es obligatorio cuando se importan metadatos de linaje, y opcional cuando se importan metadatos de activos. Se utiliza para identificar de forma única una fuente de datos mediante el uso de puntos finales. Los puntos finales incluyen información como el nombre de host o la dirección IP, el número de puerto y el nombre de la base de datos o el identificador de instancia. Por ejemplo, cuando se dispone de varias bases de datos Microsoft SQL Server, la definición del origen de datos identifica una de ellas. O cuando su clúster Teradata contiene varios nodos con varios nombres de host, la definición del origen de datos identifica todo el clúster como una sola entidad. Para obtener más información, consulte Creación de una definición de fuente de datos.

  • Escáner. Se utiliza para extraer y procesar metadatos para crear linajes. Se selecciona un escáner cuando la fuente de datos de la que se importa el linaje puede albergar metadatos de varias tecnologías. Por ejemplo, Microsoft SQL Server puede utilizarse como almacenamiento de metadatos para Microsoft SQL Server Integration Services. En tal caso, los metadatos de linaje pueden importarse de la base de datosMicrosoft SQL Server) o de trabajos ETLMicrosoft SQL Server Integration Services). Seleccione un escáner para importar el tipo específico de metadatos de linaje.

  • Conexión. Los detalles de la conexión incluyen las credenciales. Puede crear muchas conexiones para una fuente de datos, por ejemplo para conectarse utilizando diferentes nombres de host, o para conectarse a varias cuentas de usuario con privilegios específicos. Los detalles necesarios para conectarse a una fuente de datos específica se describen en cada tema de conexión en la sección Conectores. Al importar metadatos de activos, debe seleccionar una definición de fuente de datos o una conexión.

Ámbito de importación

Decida el alcance de los datos que desea importar. En función del tamaño y el contenido de su fuente de datos, es posible que no desee importar todos los activos, sino un subconjunto seleccionado. Puede incluir esquemas o carpetas completos, o profundizar hasta tablas o archivos individuales. Cuando selecciona un esquema o una carpeta, puede ver inmediatamente cuántos elementos contiene. Por lo tanto, puede decidir si desea incluir todo el conjunto o si un subconjunto sirve mejor a su propósito.

No se pueden importar datos de esquemas cuyo nombre contenga caracteres especiales.

Listas de inclusión y exclusión de metadatos de linaje

Cuando se define un ámbito para extraer metadatos de linaje, se puede añadir una lista de activos para incluirlos en la extracción o excluirlos de ella. Esta lista suele ser una expresión regular y su formato es específico de la fuente de datos seleccionada. Para más detalles, consulte un tema de conexión específico en la sección Conectores.

Entradas externas

Al importar metadatos de linaje, puede proporcionar entradas manuales adicionales para algunas fuentes de datos, de modo que el linaje final contenga datos más completos. Tiene las siguientes opciones:

Añadir entradas desde archivo
Normalmente se añade un archivo .zip con una estructura que cumple los requisitos de una fuente de datos específica. Los requisitos de estructura se explican detalladamente en cada tema de conexión de la sección Conectores.
Ingesta de metadatos de agentes externos
Puede conectarse manualmente a un sistema de archivos agente o a un repositorio Git. A continuación, se descargan los activos y se utilizan en la extracción de metadatos.

Sustituciones de marcadores de posición

Al añadir entradas externas para el linaje, puede sustituir valores de marcador de posición, como variables de entorno, por valores reales para utilizarlos en el análisis del linaje. La siguiente tabla contiene ejemplos de cómo puede modificarse la visualización de los datos para el análisis de linajes.

Ámbito de sustitución Formato de tratamiento del alcance Valor de marcador de posición Valor de sustitución
(La expresión regular no está seleccionada, se utiliza texto sin formato) ${table_name} clientes
.*bteq Expresión regular ${db} dwh

Otra forma de proporcionar sustituciones de marcadores de posición es crear un archivo CSV y añadirlo al archivo .zip que cargue como entrada externa. Este archivo debe llamarse replace.csv y debe tener la siguiente estructura:

"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]

Donde:

  • PLACEHOLDER is the value that you want to replace.
  • REPLACEMENT_VALUE is the new value that replaces the original value.
  • SCOPE is a filter to apply the replacement only on the selected assets. Esta columna es opcional. Se interpreta como una expresión regular. La ruta de ejemplo que puede utilizarse en este archivo es \MyBD\MySchema\MyScript.sql.

Cada par de sustitución debe colocarse en una línea separada. Cada valor debe ir entre comillas dobles ("").

Opciones de planificación

Si no establece una planificación, ejecute la importación cuando guarde inicialmente el activo de importación de metadatos. Puede volver a ejecutar la importación manualmente en cualquier momento.

Si selecciona ejecutar la importación en una planificación específica, defina la fecha y la hora en que desea que se ejecute el trabajo. Es posible que desee coordinar la importación de metadatos planificada y los trabajos de enriquecimiento de metadatos correspondientes para los mismos activos.

Si selecciona ejecutar la importación en una planificación específica, defina la fecha y la hora en que desea que se ejecute el trabajo. Puede planificar ejecuciones únicas y recurrentes. Si planifica una sola ejecución, el trabajo se ejecuta exactamente una vez en el día y hora especificados. Si programa ejecuciones recurrentes, el trabajo se ejecuta por primera vez en el momento indicado en la sección Recurrencia.

El nombre predeterminado del trabajo de importación es el trabajo metadata_import_name . Al configurar la importación de metadatos, puede cambiar el nombre para que se ajuste al esquema de denominación. Sin embargo, no puede cambiar el nombre más tarde. Puede acceder al trabajo de importación creado desde el activo de importación de metadatos o desde la página Trabajos del proyecto. Consulte Trabajos.

Puede actualizar la planificación de una importación de metadatos editando el activo de importación de metadatos.

Fases de importación de linajes

La importación de metadatos de linaje es un proceso que consta de varias fases. Para optimizar la importación según sus necesidades, puede decidir qué fases ejecutar con cada trabajo de importación de metadatos. Por ejemplo, puede ejecutar sólo la fase de extracción en las conexiones seleccionadas que se actualizaron recientemente para mejorar el rendimiento. Una vez completada esta fase, puede ejecutar el análisis en todo: en las conexiones renovadas y en las que se extrajeron previamente.

La siguiente lista ofrece una breve explicación sobre qué procesos se ejecutan en cada fase de importación de linajes:

Extracción del diccionario
Extrae e importa activos de linaje (tablas, vistas, sinónimos y otros) en el repositorio de linaje.
Extracción de transformaciones
Extrae las definiciones de las transformaciones de la fuente de datos.
Análisis de las entradas extraídas
Analiza el linaje de datos para las transformaciones extraídas automáticamente.
Ingesta de entradas externas
Ingesta entradas externas desde un sistema de archivos agente o un repositorio Git.
Análisis de entradas externas
Analiza el linaje de datos para entradas externas que fueron ingestadas o cargadas por un trabajo de importación de metadatos.

Opciones avanzadas de importación

Puede personalizar el comportamiento general de importación y lo que sucede con los activos importados cuando vuelve a ejecutar una importación de metadatos.

Opciones de importación de metadatos de activos

Impedir que se actualicen propiedades específicas
De forma predeterminada, todas las propiedades de activo se actualizan cuando se vuelven a importar los activos. Si no desea que los nombres de los activos, las descripciones de los activos o las descripciones de cualquier columna se actualicen al reimportar, desactive las casillas de verificación correspondientes en la lista Actualizar al reimportar.
Suprimir activos existentes que no están incluidos en la reimportación
De forma predeterminada, no se suprime ningún activo del proyecto o catálogo de destino cuando se vuelve a ejecutar la importación. Para limpiar el proyecto o catálogo de destino, seleccione en las opciones Suprimir al volver a importar .
  • Activo no encontrado en la fuente de datos o excluido de la importación: En estos casos, elimine los activos importados previamente del destino de importación cuando se vuelva a ejecutar la importación:
    • El activo ya no está disponible en la fuente de datos.
    • El ajuste Excluir de la importación ha cambiado para la nueva ejecución, de modo que el activo está ahora excluido de la importación (aplicable sólo a las importaciones de metadatos que se ejecutan en bases de datos relacionales).
  • Activo eliminado del ámbito de importación: Elimine los activos eliminados del ámbito de estos metadatos tras la última ejecución desde el destino de importación cuando se vuelva a ejecutar la importación.
No importar tipos específicos de activos relacionales

Para las importaciones de metadatos que se ejecutan en bases de datos relacionales, en el ajuste Excluir de la importación, puede seleccionar si desea importar todos los tipos de activos relacionales o si desea excluir tablas, o vistas, alias y sinónimos. Estas opciones se excluyen mutuamente.

Importar propiedades de activo adicionales

Para las importaciones de metadatos que se ejecutan en bases de datos relacionales, puede seleccionar si se importan las claves primarias y foráneas que puedan estar definidas en la base de datos.

Habilitar opciones de importación adicionales

Habilite las importaciones incrementales para importar sólo activos de datos nuevos o modificados cuando vuelva a ejecutar la importación. Esta opción sólo está disponible para las importaciones de metadatos que se ejecutan en bases de datos relacionales y cuando la fuente de datos seleccionada admite importaciones incrementales:

La actualización o eliminación de la descripción de un activo en el origen de datos no cambia la fecha de modificación del activo. La fecha de modificación tampoco cambia para los activos que se eliminan de la lista de activos importados. Por lo tanto, estos activos no se consideran para las importaciones incrementales. Además, los activos que se suprimen del origen de datos o del ámbito no se detectan con importaciones incrementales. Por lo tanto, estos activos no se marcan como Eliminados o se suprimen tal como se especifica con los valores Suprimir al volver a importar . Para ver reflejados estos cambios, inhabilite las importaciones incrementales para volver a importar todos los activos en el ámbito de datos.

Importante:

Es posible que las importaciones incrementales no funcionen si el origen de datos y la estación de trabajo cliente de Cloud Pak for Data están en husos horarios diferentes. Si el cliente está en un huso horario que está por delante del huso horario del origen de datos, es posible que el trabajo de importación de metadatos no detecte los activos que se añadieron o modificaron después de la última ejecución de importación. En este caso, inhabilite la importación incremental para que se incluyan todos los activos cuando vuelva a ejecutar la importación.
Para que funcionen las importaciones incrementales, el origen de datos debe estar en el huso horario GMT independientemente del huso horario del cliente.

Recopilar metadatos del catálogo de base de datos

Para las importaciones de metadatos que se ejecutan en bases de datos relacionales, puede optar por importar los metadatos desde el catálogo de la base de datos. Por lo tanto, el usuario que ejecuta la importación sólo necesita acceso al catálogo de base de datos pero no necesita tener permiso SELECT sobre los datos reales. Los activos importados no se pueden perfilar ni utilizar en el enriquecimiento de metadatos.

Importar indicación de fecha y hora de activo

Puede incluir la información sobre la hora en que se modificó el activo por última vez. El metadata_modification_token atributo se añade a la extended_metadata propiedad de un activo.

Opciones de importación de metadatos de linaje

Las opciones avanzadas para el linaje dependen de la fuente de datos que seleccione. Para más detalles, consulte un tema de conexión específico en la sección Conectores.

Más información

Planificación de la ordenación

Tema padre: Importación de metadatos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información