Al enriquecer metadatos de activos, debe decidir qué activos de datos enriquecer, qué tipo de metadatos añadir y si desea programar trabajos de enriquecimiento.
Normalmente, el enriquecimiento de metadatos forma parte de un plan de ordenación de datos más grande. Por ejemplo, después de importar metadatos para activos de datos, puede añadir metadatos de negocio a los activos de datos importados, identificar relaciones entre los activos y ejecutar el análisis de la calidad de datos de estos activos. Por último, puede publicar los activos de datos completados en un catálogo para compartirlos con su organización. Antes de diseñar el enriquecimiento de metadatos, asegúrese de que comprende las implicaciones de sus opciones en el plan de ordenación global. Consulte Planificación de la ordenación.
- Configurar el proyecto
- Ámbito de enriquecimiento
- Objetivos de enriquecimiento
- Selección de categoría
- Muestreo
- Planificación de enriquecimiento
Configurar el proyecto
Seleccione o cree el proyecto en el que desea trabajar. Recuerde que los proyectos marcados como sensibles no permiten la publicación en catálogos ni la descarga de datos. Por lo tanto, no son adecuados si desea compartir los activos enriquecidos o descargar los resultados para revisarlos en una hoja de cálculo.
Como administrador del proyecto, defina la configuración de enriquecimiento por defecto que se aplicará a todos los enriquecimientos de metadatos del proyecto seleccionado. Puede sobrescribir algunos de estos valores al crear o editar el enriquecimiento de metadatos.
Ámbito de enriquecimiento
Normalmente, el primer paso al enriquecer metadatos es seleccionar los datos que desea enriquecer. Puede enriquecer los activos de datos relacionales y estructurados.
El enriquecimiento de metadatos se ejecuta en activos que están disponibles en el proyecto. Por lo tanto, es posible que la lista de activos enriquecidos en los resultados de enriquecimiento no se corresponda con el ámbito configurado de los activos de importación de metadatos incluidos en estos casos:
- La Metadata import todavía no se ha completado cuando se inició el enriquecimiento.
- La Metadata import ha fallado para un conjunto de activos o ha fallado completamente.
Ámbito de datos inicial
La lista Activos de datos muestra todos los activos de los formatos soportados. Puede enriquecer los activos de datos relacionales y estructurados. Puede seleccionar activos individuales, pero también puede seleccionar activos de importación de metadatos para enriquecer todo el conjunto de activos de datos de dichas importaciones de metadatos. Sin embargo, no puede seleccionar activos de datos o importaciones de metadatos que ya estén incluidos en un enriquecimiento de metadatos. Para activos de datos individuales, puede pasar el cursor por encima del nombre del activo para ver en qué enriquecimiento de metadatos se incluye el activo.
Un activo de importación de metadatos se excluye automáticamente del ámbito de selección en estos casos:
Tiene un catálogo como destino de importación.
Se ha ejecutado en una conexión que no admite el acceso a los datos reales.
Consulte Importación de metadatos.
Recuerde: Cada activo de datos o importación de metadatos solo se puede incluir en un enriquecimiento de metadatos por proyecto. Si desea enriquecer un activo de datos varias veces con distintas opciones de enriquecimiento, debe hacerlo en proyectos separados.
Si alguna de las conexiones para los activos de datos seleccionados está configurada para utilizar credenciales personales en lugar de compartidas, debe desbloquear dicha conexión antes de continuar.
También puede crear un activo de enriquecimiento de metadatos vacío y establecer el ámbito más adelante.
Alcance de las repeticiones del enriquecimiento
Para las reejecuciones del enriquecimiento, ya sean planificadas o ejecutadas manualmente, el ámbito de datos puede ser todos los activos del ámbito de datos seleccionado inicialmente o un subconjunto de activos. La opción predeterminada es Activos nuevos y modificados y activos no enriquecidos en la ejecución anterior. Con esta opción, los activos se seleccionan para el enriquecimiento de la forma siguiente:
- Activos que se han añadido después de la última ejecución del enriquecimiento
- Activos en los que se han añadido o eliminado columnas después de la última ejecución del enriquecimiento
- Activos en los que las descripciones de activo o columna han cambiado después de la última ejecución del enriquecimiento
- Activos para los que la mejora anterior ha fallado o se ha cancelado
El enriquecimiento siempre se ejecuta en todo el activo de datos independientemente de si un activo es nuevo o modificado.
El registro de ejecución de trabajos muestra las repeticiones de enriquecimientos de metadatos configurados con el ámbito de datos limitado como ejecuciones de trabajos de enriquecimiento de metadatos delta.
Objetivos de enriquecimiento
Puede elegir entre estos objetivos de enriquecimiento:
- Datos de perfil
- Expandir metadatos
- Asignar términos y clasificaciones
- Ejecutar análisis de calidad básico
- Definir relaciones
Datos de perfil
Genera estadísticas básicas sobre el contenido de los activos, asigna y sugiere clases de datos.
Este tipo de perfilado es rápido pero realiza algunas aproximaciones para determinadas métricas como la distribución de frecuencia y la exclusividad. Para obtener resultados más exactos sin aproximación, ejecute el perfilado avanzado en los activos de datos seleccionados. Consulte Perfilado avanzado de datos. Para obtener más información sobre las estadísticas, consulte Resultados detallados de perfilado.
Las clases de datos describen el contenido de los datos en la columna: por ejemplo, ciudad, número de cuenta o número de tarjeta de crédito. Las clases de datos se pueden utilizar para enmascarar datos con reglas de protección de datos o para restringir el acceso a activos de datos con políticas. Además, pueden contribuir a las asignaciones de términos si existe un enlace de clase de datos a término correspondiente.
La confianza de una clase de datos es el porcentaje de valores no nulos que coinciden con la clase de datos. La puntuación de confianza para una clase de datos que se va a asignar o sugerir debe ser al menos igual al umbral establecido. Consulte Valores de asignación de clases de datos. Si se establece un umbral en una clase de datos directamente, este umbral tiene prioridad cuando se asignan clases de datos. No se tiene en cuenta para sugerencias. Además de la puntuación de confianza, se tiene en cuenta la prioridad de una clase de datos.
Varias clases de datos son identificadores más genéricos que se detectan y asignan en un nivel de columna. Estas clases de datos se asignan cuando no se ha podido identificar una clase de datos más específica en un nivel de valor. Los identificadores genéricos tienen siempre una confianza del 100% e incluyen las siguientes clases de datos: código, identificador, indicador, cantidad y texto.
Las claves primarias de una sola columna se sugieren en función de las estadísticas de perfilado. Si la clave primaria y las restricciones de clave foránea ya están definidas en los datos y esta información se incluye en la importación de metadatos, estas claves se asignan automáticamente.
Desde los resultados de enriquecimiento, puede ejecutar un análisis de clave primaria de varias columnas donde se comprueban los datos reales. Para obtener más información, consulte Identificación de claves primarias.
Expandir metadatos
Genere nombres y descripciones semánticos para los activos de datos y las columnas. Los nombres que existen en la fuente se amplían a partir de los metadatos recopilados y de un glosario predefinido mediante concordancia difusa y comparando los nombres con la abreviatura de términos empresariales en las categorías seleccionadas para el enriquecimiento. Si el nombre del activo o de la columna en la fuente puede corresponderse con una abreviatura de término de negocio, el término de negocio correspondiente se utiliza como nombre para mostrar. La IA generativa se utiliza para proporcionar descripciones basadas en los nombres expandidos, las columnas circundantes y el contexto de los activos de datos. Utilice esta opción para proporcionar nombres alternativos que sean más fáciles de consumir que los nombres originales a menudo muy técnicos. Las descripciones generadas por IA pueden ayudar a comprender el contenido, especialmente cuando faltan descripciones de columna o de activos de datos en el origen de datos. Los umbrales de asignación y sugerencia se definen en los valores de mejora predeterminados.
Asignar términos y clasificaciones
Asigne automáticamente términos empresariales a columnas y activos completos, o sugiera términos empresariales para su asignación manual. Un conjunto de servicios generan estas asignaciones o sugerencias. Véase asignación automática de términos.
Dependiendo de los servicios de asignación de términos que estén activos para el proyecto, es posible que la asignación de términos requiera la creación de perfiles.
Además, asigne clasificaciones a los activos de datos y columnas basadas en términos y clases de datos asignados automáticamente. La asignación de clasificaciones debe estar activada en la configuración de enriquecimiento por defecto. La asignación de clasificación basada en clases de datos también requiere la elaboración de perfiles.
Ejecutar análisis de calidad básico
Ejecute comprobaciones de calidad de datos predefinidas en las columnas de un activo de datos. El conjunto de comprobaciones que se aplica se define en los valores de enriquecimiento. Consulte Valores básicos de análisis de calidad. Cada comprobación puede contribuir a los núcleos de calidad de datos globales del activo. Este tipo de análisis de calidad de datos sólo se puede realizar en combinación con la creación de perfiles. Por lo tanto, la opción Datos de perfil se selecciona automáticamente cuando se selecciona analizar la calidad de los datos.
Puede elegir si desea escribir la salida de estas comprobaciones en una base de datos. Si existen valores predeterminados, las secciones se rellenan en consecuencia. Puede sobrescribir los valores. Si no existen valores predeterminados, configure la salida y la ubicación de salida. Para obtener información sobre qué orígenes de datos están soportados como destino de salida, consulte la columna Tablas de salida en Orígenes de datos soportados. Los nombres de esquema y tabla deben seguir este convenio:
- El primer carácter del nombre debe ser un carácter alfabético.
- El resto del nombre puede constar de caracteres alfabéticos, caracteres numéricos o subrayados.
- El nombre no debe contener espacios.
Si selecciona escribir las excepciones o las filas en las que se han encontrado los problemas (registros de excepciones) en las tablas existentes, asegúrese de que estas tablas tengan el formato necesario. Véase salida de calidad de datos.
Si la conexión que selecciona está bloqueada, se le solicitará que especifique sus credenciales personales. Se trata de un paso único que desbloquea permanentemente la conexión en su nombre.
Definir relaciones
Utiliza estadísticas de perfilado y similitudes de nombres entre columnas para proporcionar claves primarias y foráneas y para sugerir o asignar relaciones entre activos y columnas. Se aplican los valores de enriquecimiento predeterminados para las relaciones clave. Este tipo de análisis de relaciones requiere la creación de perfiles.
Evaluar la calidad de los datos con normas SLA
Comprueba si la calidad de los datos cumple los acuerdos de nivel de servicio sobre calidad de datos definidos. Las reglas SLA de calidad de datos definen umbrales de calidad de datos para activos de datos o columnas dentro de activos de datos. Con esta opción de enriquecimiento, los activos de datos del enriquecimiento de metadatos se cotejan con los criterios de selección de las reglas de SLA de calidad de datos. Si los activos de datos o las columnas individuales coinciden con los criterios de selección de una regla de SLA de calidad de datos, su calidad de datos se comprueba con los umbrales de calidad definidos en esa regla de SLA.
Como resultado de una ejecución de enriquecimiento con esta opción, se genera un informe de cumplimiento de SLA para cada activo de datos del enriquecimiento, independientemente de si se ha infringido alguna condición de regla de SLA de calidad de datos. Los informes de cumplimiento de SLA forman parte de la información de calidad de un activo de datos que está disponible en los resultados del enriquecimiento o en la página Calidad de datos del activo en un proyecto.
Dependiendo de la configuración de una regla de SLA de calidad de datos, podría iniciarse un flujo de trabajo de corrección de calidad de datos si un activo de datos infringe esta regla.
Si combina este objetivo con otros, se aplican las siguientes consideraciones:
- Si también se selecciona el objetivo de datos Perfil, la evaluación de SLA de calidad de datos se ejecuta sólo si la creación de perfiles se ha completado con éxito.
- Si también se selecciona el objetivo Asignar términos y clasificaciones, la evaluación SLA de la calidad de los datos se ejecuta sólo si la asignación de términos se ha completado correctamente. Dado que la asignación trimestral requiere el perfilado de los datos, el perfilado también debe haberse completado con éxito.
Puede ejecutar el enriquecimiento de metadatos con la evaluación de SLA de calidad de datos como único objetivo. Sin embargo, antes de hacerlo, confirme que los activos de datos o las columnas del ámbito de enriquecimiento tienen términos asignados y cuentan con una puntuación de calidad de datos. Además, en este caso, el ámbito de datos de las repeticiones debe establecerse en Todos los activos de datos.
Selección de categoría
Seleccione las categorías para determinar las clases de datos y los términos empresariales que se pueden aplicar durante el enriquecimiento. Es posible que un administrador de proyecto haya limitado el conjunto de categorías a elegir al crear un enriquecimiento. Esta limitación no se aplica cuando se edita el enriquecimiento. En cualquier caso, solo puede elegir entre categorías en las que sea colaborador con al menos el rol de Visor.
Seleccione sólo categorías con artefactos de gobernabilidad que sean relevantes para su caso de uso.
Esta selección solo se aplica a las asignaciones y sugerencias automáticas. Si asigna manualmente términos o clases de datos, puede elegir entre todas las categorías a las que tiene acceso.
Los cambios en el conjunto de categorías a elegir o la selección de categoría real entran en vigor durante la siguiente ejecución de enriquecimiento. Sin embargo, las asignaciones existentes permanecen sin cambios.
Si el acceso a cualquiera de las categorías seleccionadas se revoca después de ejecutar el enriquecimiento de metadatos y no realiza ningún cambio en el enriquecimiento, cualquier reejecución seguirá considerando todas las categorías seleccionadas para la clase de datos y las asignaciones de términos.
Muestreo
Puede elegir entre estos tipos de muestreo:
- Básico
El muestreo básico funciona con el tamaño de muestra más pequeño posible para acelerar el proceso: se analizan 1.000 filas por tabla, y la clasificación se realiza en función de los 100 valores más frecuentes por columna.
- Moderado
El muestreo moderado funciona con un tamaño de muestra de tamaño medio para proporcionar resultados razonablemente precisos sin consumir demasiado tiempo: se analizan 10.000 filas por tabla, y la clasificación se realiza basándose en los 100 valores más frecuentes por columna.
- Exhaustivo
El muestreo exhaustivo funciona con un tamaño de muestra grande para proporcionar resultados más precisos: se analizan 100.000 filas por tabla y la clasificación tiene en cuenta todos los valores por columna. Sin embargo, este método tarda mucho tiempo y utiliza muchos recursos.
- Personalizado
Defina el método de muestreo, el tamaño de la muestra y la base para la clasificación:
Elija entre muestreo secuencial y aleatorio. Con el muestreo secuencial, las primeras filas de un conjunto de datos se seleccionan en un orden secuencial. Con el muestreo aleatorio, las filas que se van a incluir se seleccionan aleatoriamente. Para ambos métodos, el número máximo de filas que deben seleccionarse viene determinado por el tamaño de muestra definido.
El muestreo aleatorio sólo está disponible para activos de datos de orígenes de datos que dan soporte a este tipo de muestreo. Para más información, consulte Conceptos de muestreo aleatorio.
Defina el tamaño máximo de la muestra. Puede establecer un número fijo de filas o especificar el porcentaje de filas del conjunto de datos que desea analizar. Si define el tamaño de la muestra como un valor de porcentaje, puede establecer opcionalmente el número mínimo y máximo de filas que puede incluir la muestra. Es posible que desee establecer estos valores cuando no conozca el tamaño de los conjuntos de datos que se van a analizar. El número o porcentaje de filas seleccionadas para la muestra sólo puede aproximarse al valor especificado.
Seleccione si desea que se asigne una clase de datos basándose en todos los valores de una columna o en los valores más frecuentes de una columna donde puede especificar el número de valores que desea que se tengan en cuenta.
El muestreo básico, moderado o completo es secuencial y empieza al principio de la tabla. Para suprimir el muestreo, utilice el muestreo personalizado que se ha configurado con un muestreo aleatorio y un tamaño de muestra del 100%.
Opciones de planificación
Si su ámbito de datos incluye activos de importación de metadatos, la página Programación proporciona información sobre cualquier programación configurada de los respectivos trabajos de importación de metadatos. Esta información le ayuda a coordinar la planificación de enriquecimiento con cualquier programa de importación.
Definición de ejecución
Define cuándo se ejecuta el enriquecimiento de metadatos. Puede seleccionar ninguna, una o ambas opciones:
- Ejecutar después de la creación del trabajo
Seleccione esta opción para ejecutar el enriquecimiento de metadatos cuando guarde un enriquecimiento de metadatos recién creado. De lo contrario, se guarda el activo de enriquecimiento de metadatos, pero no se inicia la ejecución del trabajo.
- Ejecutar en una planificación
Seleccione esta opción para ejecutar el enriquecimiento en un horario. Puede planificar ejecuciones únicas y recurrentes. Defina la fecha y hora de inicio de la programación. Si planifica una sola ejecución, el trabajo se ejecuta exactamente una vez en el día y hora especificados.
Para programar ejecuciones recurrentes, seleccione Repetir el trabajo y la frecuencia con la que desea que se ejecute el trabajo de enriquecimiento. Si selecciona Cada minuto, Cada hora o Cada día, puede excluir determinados días de la semana de la programación. Opcionalmente, puede establecer una fecha y hora de finalización para la programación de trabajos. Para ejecuciones recurrentes, el trabajo se ejecuta por primera vez en la marca de tiempo que se calcula en función de la configuración de la sección Repetir el trabajo.
Independientemente de la definición de ejecución, puede activar manualmente una ejecución del trabajo de enriquecimiento de metadatos en cualquier momento.
Si se configuran ventanas de ejecución de trabajos para un proyecto, las ejecuciones de trabajos de enriquecimiento de metadatos se restringen a los marcos temporales configurados. La ejecución de los trabajos se iniciará según se solicite, es decir, bajo demanda, tras la creación del activo de enriquecimiento de metadatos, o según el calendario definido, pero se detendrá inmediatamente si la fecha y hora de inicio están fuera de una ventana de ejecución y se reanudará cuando se abra la siguiente ventana de ejecución de trabajos. Los enriquecimientos de metadatos de larga duración pueden detenerse y reanudarse varias veces.
Para obtener más información, consulte Gestión de la programación de trabajos de enriquecimiento.
Más información
Próximos pasos
Tema principal: Gestión del enriquecimiento de metadatos