Al importar metadatos, debe decidir qué tipo de metadatos importar, el destino y el ámbito de la importación, si desea programar los trabajos de importación y cómo desea personalizar el comportamiento de la importación.
- Objetivos de importación
- Importar destino
- Origen de datos
- Alcance de la importación
- Opciones de planificación
- Fases de importación de linajes
- Opciones avanzadas de importación
Objetivos de importación
El primer paso para importar metadatos es definir los objetivos de la importación. Debe decidir qué tipo de metadatos importar y si desea trabajar con los activos importados en un proyecto o publicarlos directamente en un catálogo.
Normalmente, la importación de metadatos forma parte de un plan más amplio de conservación de datos. Por ejemplo, después de importar metadatos para activos de datos, puede añadir metadatos empresariales a los activos de datos importados ejecutando el enriquecimiento de metadatos. También puede ejecutar reglas de calidad de datos. Por último, puede publicar los activos de datos completados en un catálogo para compartirlos con su organización. Antes de diseñar su importación de metadatos, asegúrese de que comprende las implicaciones de sus elecciones para su plan general de conservación. Véase Planificación de la curación.
Por ejemplo, un proceso típico de conservación de activos de datos incluye las siguientes tareas:
- Ejecute la importación de metadatos con la opción Importar metadatos de activos para añadir activos de datos a un proyecto.
- Ejecute el enriquecimiento de metadatos en los activos de datos para perfilar sus datos, realizar análisis básicos de la calidad de los datos y proporcionar contexto empresarial mediante la asignación de términos.
- Ejecutar reglas de calidad de datos en los activos.
- Publique los activos en un catálogo.
- Ejecute la importación de metadatos para los mismos activos de datos con la opción Importar metadatos de linaje para añadir información de linaje a esos activos en el catálogo.
Puede añadir otros tipos de activos directamente a un catálogo porque el enriquecimiento de metadatos y la evaluación de la calidad de los datos no son aplicables. Puede elegir las opciones Importar metadatos de activos e Importar metadatos de linaje para importar simultáneamente los metadatos técnicos y de linaje de los activos mientras los añade a un catálogo.
Puede elegir entre los siguientes métodos de importación:
- Importar metadatos de activos
- Los metadatos técnicos de activos proporcionan información para los detalles de los activos, las relaciones y la vista previa de los activos. Puede añadirlo a un proyecto para su posterior procesamiento o publicarlo en un catálogo inmediatamente después de la importación.
- Importar metadatos de linaje
- Los metadatos de linaje proporcionan información sobre el flujo de datos, de dónde proceden, cómo cambian y hacia dónde se mueven con el tiempo. Los metadatos de linaje se almacenan en el repositorio de linaje.
Importar destino
Puedes importar metadatos al proyecto en el que estés trabajando o a cualquier catálogo en el que tengas un rol de editor o administrador.
Proyectos
En los proyectos, puede ejecutar reglas de enriquecimiento de metadatos y de calidad de datos en los activos de datos. Los activos de datos importados se publican en un catálogo una vez que el usuario está satisfecho con las asignaciones de metadatos empresariales y la calidad de los datos.
La información sobre linajes está disponible en catálogos y proyectos. La información sobre el linaje sólo está disponible en los proyectos si los activos tienen un linaje importado mediante la Metadata import.
Si su proyecto está marcado como sensible, sólo podrá importar metadatos al proyecto, no a un catálogo. Para más información, consulte Marcar un proyecto como sensible.
Catálogos
Si conoce bien el contenido de los activos de datos y no desea ejecutar reglas de enriquecimiento de metadatos o de calidad de datos, puede importar sus metadatos directamente al catálogo. Una vez finalizada la importación, los activos estarán disponibles públicamente en el catálogo seleccionado.
Puede importar metadatos a cualquier catálogo para el que tenga un rol de editor o administrador, excepto cuando el catálogo forme parte de un proyecto marcado como sensible.
Si importa a un catálogo, asegúrese de que el catálogo de destino tiene la gestión de activos duplicados configurada para actualizar los activos originales en lugar de permitir activos duplicados. Véase Gestión de activos duplicados.
Si desea que las normas de protección de datos se apliquen a los activos de datos importados, debe seleccionar un catálogo gobernado como destino de la importación.
Origen de datos
Para consultar la lista de fuentes de datos compatibles, véase Fuentes de datos compatibles para la curación y la calidad de los datos.
Para conectarse a la fuente de datos, debe especificar los siguientes detalles:
Definición de la fuente de datos. Es obligatorio cuando se importan metadatos de linaje, y opcional cuando se importan metadatos de activos. Se utiliza para identificar de forma única una fuente de datos mediante el uso de puntos finales. Los puntos finales incluyen información como el nombre de host o la dirección IP, el número de puerto y el nombre de la base de datos o el identificador de instancia. Por ejemplo, cuando se dispone de varias bases de datos Microsoft SQL Server, la definición del origen de datos identifica una de ellas. O cuando su clúster Teradata contiene varios nodos con varios nombres de host, la definición del origen de datos identifica todo el clúster como una sola entidad. Para más información, consulte Creación de una definición de fuente de datos. Cree una definición de fuente de datos antes de empezar a crear una importación de metadatos.
Escáner. Se utiliza para extraer y procesar metadatos para crear linajes. Se selecciona un escáner cuando la fuente de datos de la que se importa el linaje puede albergar metadatos de varias tecnologías. Por ejemplo, Microsoft SQL Server puede utilizarse como almacenamiento de metadatos para Microsoft SQL Server Integration Services. En tal caso, los metadatos de linaje pueden importarse de la base de datosMicrosoft SQL Server) o de trabajos ETLMicrosoft SQL Server Integration Services). Seleccione un escáner para importar el tipo específico de metadatos de linaje.
Conexión. Los detalles de la conexión incluyen las credenciales. Puede crear muchas conexiones para una fuente de datos, por ejemplo para conectarse utilizando diferentes nombres de host, o para conectarse a varias cuentas de usuario con privilegios específicos. Los detalles necesarios para conectarse a una fuente de datos específica se describen en cada tema de conexión en la sección Conectores. Al importar metadatos de activos, debe seleccionar una definición de fuente de datos o una conexión. Cree una conexión antes de empezar a crear una importación de metadatos. Puede crear una conexión en un proyecto en el que desee importar datos, o bien crear una conexión de plataforma y añadirla después al proyecto. Para más información, consulte Añadir conexiones a fuentes de datos en un proyecto.
La conexión debe asignarse a una definición de fuente de datos. Si primero crea una definición de fuente de datos y luego una conexión, cree la asignación manualmente. Consulte Añadir puntos finales a una definición de fuente de datos nueva o existente.
Alcance de la importación
Decida el alcance de los datos que desea importar. En función del tamaño y el contenido de su fuente de datos, es posible que no desee importar todos los activos, sino un subconjunto seleccionado. Puede incluir esquemas o carpetas completos, o profundizar hasta tablas o archivos individuales. Cuando selecciona un esquema o una carpeta, puede ver inmediatamente cuántos elementos contiene. Por lo tanto, puede decidir si desea incluir todo el conjunto o si un subconjunto sirve mejor a su propósito.
No se pueden importar datos de esquemas cuyo nombre contenga caracteres especiales.
Listas de inclusión y exclusión de metadatos de linaje
Cuando se define un ámbito para extraer metadatos de linaje, se puede añadir una lista de activos para incluirlos en la extracción o excluirlos de ella. Esta lista suele ser una expresión regular y su formato es específico de la fuente de datos seleccionada. Para más detalles, consulte un tema de conexión específico en la sección Conectores.
Entradas externas
Al importar metadatos de linaje, puede proporcionar entradas manuales adicionales para algunas fuentes de datos, de modo que el linaje final contenga datos más completos. Tiene las siguientes opciones:
- Añadir entradas desde archivo
- Normalmente se añade un archivo .zip con una estructura que cumple los requisitos de una fuente de datos específica. Los requisitos de estructura se explican detalladamente en cada tema de conexión de la sección Conectores.
- Ingerir metadatos desde agentes externos
- Puede conectarse manualmente a un sistema de archivos del agente o a un repositorio Git. A continuación, se descargan los activos y se utilizan en la extracción de metadatos.
Sustituciones de marcadores de posición
Al añadir entradas externas para el linaje, puede sustituir valores de marcador de posición, como variables de entorno, por valores reales para utilizarlos en el análisis del linaje. La siguiente tabla contiene ejemplos de cómo puede modificarse la visualización de los datos para el análisis de linajes.
Ámbito de sustitución | Formato de tratamiento del ámbito | Valor de marcador de posición | Valor de sustitución |
---|---|---|---|
(La expresión regular no está seleccionada, se utiliza texto sin formato) | ${table_name} | clientes | |
.*bteq | Expresión regular | ${db} | dwh |
Otra forma de proporcionar sustituciones de marcadores de posición es crear un archivo CSV y añadirlo al archivo .zip que cargue como entrada externa. Este archivo debe llamarse ' replace.csv
y debe tener la siguiente estructura:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
Donde:
PLACEHOLDER
es el valor que quieres reemplazar.REPLACEMENT_VALUE
es el nuevo valor que sustituye al valor original.SCOPE
es un filtro para aplicar el reemplazo sólo en los activos seleccionados. Esta columna es opcional. Se interpreta como una expresión regular. La ruta de ejemplo que puede utilizarse en este archivo es '\MyBD\MySchema\MyScript.sql
.
Cada par de sustitución debe colocarse en una línea separada. Cada valor debe ir entre comillas dobles ("").
Opciones de planificación
Si no se establece una programación, la importación se ejecuta cuando se guarda inicialmente el activo de importación de metadatos. Puede volver a ejecutar la importación manualmente en cualquier momento.
Si selecciona ejecutar la importación en una planificación específica, defina la fecha y la hora en que desea que se ejecute el trabajo. Es posible que desee coordinar la importación programada de metadatos y los correspondientes trabajos de enriquecimiento de metadatos para los mismos activos.
Si selecciona ejecutar la importación en una planificación específica, defina la fecha y la hora en que desea que se ejecute el trabajo. Puede planificar ejecuciones únicas y recurrentes. Si programa una sola ejecución, el trabajo se ejecuta exactamente una vez en el día y la hora especificados. Si programa ejecuciones recurrentes, el trabajo se ejecuta por primera vez en el momento indicado en la sección Recurrencia.
El nombre por defecto del trabajo de importación es metadata_import_name job. Cuando configure la importación de metadatos, puede cambiar el nombre para adaptarlo a su esquema de nomenclatura. Sin embargo, no puedes cambiar el nombre más tarde. Puede acceder al trabajo de importación creado desde el activo de importación de metadatos o desde la página Trabajos del proyecto. Consulte Trabajos.
Puede actualizar la programación de una importación de metadatos editando el activo de importación de metadatos.
Fases de importación de linajes
La importación de metadatos de linaje es un proceso que consta de varias fases. Para optimizar la importación según sus necesidades, puede decidir qué fases ejecutar con cada trabajo de importación de metadatos. Por ejemplo, puede ejecutar sólo la fase de extracción en las conexiones seleccionadas que se actualizaron recientemente para mejorar el rendimiento. Una vez completada esta fase, puede ejecutar el análisis en todo: en las conexiones renovadas y en las que se extrajeron previamente.
La siguiente lista ofrece una breve explicación sobre qué procesos se ejecutan en cada fase de importación de linajes:
- Extracción del diccionario
- Extrae e importa activos de linaje (tablas, vistas, sinónimos y otros) en el repositorio de linaje.
- Extracción de transformaciones
- Extrae las definiciones de las transformaciones de la fuente de datos.
- Análisis de entradas extraídas
- Analiza el linaje de datos para las transformaciones extraídas automáticamente.
- Ingesta de entradas externas
- Ingiere entradas externas desde un sistema de archivos agente o un repositorio Git.
- Análisis de entradas externas
- Analiza el linaje de datos para entradas externas que han sido ingeridas o cargadas por un trabajo de importación de metadatos.
Opciones avanzadas de importación
Puede personalizar el comportamiento general de la importación y lo que ocurre con los activos importados cuando vuelve a ejecutar una importación de metadatos.
Opciones de importación de metadatos de activos
- Evitar que se actualicen determinadas propiedades
- Por defecto, todas las propiedades de los activos se actualizan al reimportarlos. Si no desea que los nombres de los activos, las descripciones de los activos o las descripciones de cualquier columna se actualicen al reimportar, desactive las casillas de verificación correspondientes en la lista Actualizar al reimportar.
- Eliminar los activos existentes que no se incluyen en la reimportación
- De forma predeterminada, no se elimina ningún activo del proyecto o catálogo de destino al volver a ejecutar la importación. Para limpiar el proyecto o catálogo de destino, seleccione una de las opciones Eliminar al reimportar.
- Activo no encontrado en la fuente de datos o excluido de la importación: En estos casos, elimine los activos previamente importados del destino de importación cuando se vuelva a ejecutar la importación:
- El activo ya no está disponible en la fuente de datos.
- El ajuste Excluir de la importación ha cambiado para la nueva ejecución, de modo que ahora el activo está excluido de la importación (aplicable sólo a las importaciones de metadatos que se ejecutan en bases de datos relacionales).
- Activo eliminado del ámbito de importación: Elimina los activos que se eliminaron del ámbito de estos metadatos después de la última ejecución desde el destino de importación cuando se vuelve a ejecutar la importación.
- Activo no encontrado en la fuente de datos o excluido de la importación: En estos casos, elimine los activos previamente importados del destino de importación cuando se vuelva a ejecutar la importación:
- No importar tipos específicos de activos relacionales
Para las importaciones de metadatos que se ejecutan en bases de datos relacionales, en el ajuste Excluir de la importación, puede seleccionar si desea importar todos los tipos de activos relacionales o si desea excluir tablas, o vistas, alias y sinónimos. Estas opciones se excluyen mutuamente.
- Importar propiedades de activos adicionales
Para las importaciones de metadatos que se ejecutan en bases de datos relacionales, puede seleccionar si se importan las claves primarias y foráneas que puedan estar definidas en la base de datos.
- Activar opciones de importación adicionales
Active las importaciones incrementales para importar sólo los activos de datos nuevos o modificados cuando vuelva a ejecutar la importación. Esta opción sólo está disponible para las importaciones de metadatos que se ejecutan en bases de datos relacionales y cuando la fuente de datos seleccionada admite importaciones incrementales:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
La actualización o eliminación de la descripción de un activo en la fuente de datos no cambia la fecha de modificación del activo. La fecha de modificación tampoco cambia para los activos que se eliminan de la lista de activos importados. Por lo tanto, estos activos no se tienen en cuenta para las importaciones incrementales. Además, los activos que se eliminan de la fuente de datos o del ámbito no se detectan con las importaciones incrementales. Por lo tanto, dichos activos no se marcan como Eliminados ni se borran tal y como se especifica con la configuración de Eliminar al reimportar. Para ver reflejados estos cambios, desactive las importaciones incrementales para volver a importar todos los activos del ámbito de datos.
Importante:Es posible que las importaciones incrementales no funcionen si la fuente de datos y la estación de trabajo cliente Cloud Pak for Data se encuentran en zonas horarias diferentes. Si el cliente se encuentra en una zona horaria que va por delante de la zona horaria de la fuente de datos, es posible que el trabajo de importación de metadatos no detecte los activos que se hayan añadido o modificado después de la última ejecución de importación. En este caso, desactive la importación incremental para que se incluyan todos los activos cuando vuelva a ejecutar la importación.
Para que las importaciones incrementales funcionen, la fuente de datos debe estar en la zona horaria GMT, independientemente de la zona horaria del cliente.- Recopilar metadatos del catálogo de base de datos
Para las importaciones de metadatos que se ejecutan en bases de datos relacionales, puede optar por importar los metadatos desde el catálogo de la base de datos. Así, el usuario que ejecuta la importación sólo necesita acceso al catálogo de la base de datos, pero no necesita tener permiso SELECT sobre los datos reales. Los activos importados no se pueden perfilar ni utilizar en el enriquecimiento de metadatos.
- Importar indicación de fecha y hora de activo
Puede incluir la información sobre la hora en que se modificó el activo por última vez. El atributo "
metadata_modification_token
" se añade a la propiedad "extended_metadata
" de un activo.
Opciones de importación de metadatos de linaje
Las opciones avanzadas para el linaje dependen de la fuente de datos que seleccione. Para más detalles, consulte un tema de conexión específico en la sección Conectores.
Más información
Planificación de la conservación
Tema principal: Importación de metadatos