0 / 0
Volver a la versión inglesa de la documentación
Valores predeterminados de enriquecimiento de metadatos
Última actualización: 13 dic 2024
Valores predeterminados de enriquecimiento de metadatos

Para obtener resultados de enriquecimiento de metadatos útiles, configure los valores predeterminados para todos los enriquecimientos de metadatos de un proyecto. Los valores predeterminados también ayudan a garantizar un uso coherente de las opciones de enriquecimiento.

Los cambios en los valores de umbral o los métodos de asignación de términos seleccionados se aplican a los nuevos enriquecimientos de metadatos y a los trabajos de enriquecimiento que se ejecutan después de que hayan cambiado los valores. Los cambios en el conjunto de categorías solo se aplican a los enriquecimientos nuevos.

Permisos necesarios
Para configurar los valores predeterminados de enriquecimiento de metadatos, debe tener el rol Admin en el proyecto. Cualquier colaborador del proyecto puede ver los valores.

Puede acceder a los valores predeterminados de una de estas maneras:

  • Dentro de un activo de enriquecimiento de metadatos existente, pulse Valores predeterminados.
  • En la página Gestionar del proyecto, vaya a Herramientas > Enriquecimiento de metadatos.

Edite los valores según sea necesario. Los cambios se guardan automáticamente. Para algunos valores, puede restaurar los valores predeterminados definidos por el sistema en cualquier momento.

Configure los valores predeterminados para estas características:

También puede crear, actualizar o recuperar valores de enriquecimiento con las API en lugar de la interfaz de usuario. Los enlaces a las API se listan en la sección Más información .

Asignación de perfiles y términos

Establezca umbrales para la creación de perfiles y la asignación de términos empresariales, seleccione los métodos para la asignación de términos y preseleccione las categorías. En cualquier momento, puede restaurar el valor predeterminado para cualquier valor de umbral que haya cambiado.

Capacidad de nulos

Los campos de datos de una columna o un archivo sin formato pueden contener nulos si se les permite no tener ningún valor.

Umbral nulo
Determina si un campo de columna o archivo sin formato permite valores nulos. Si una columna o un archivo plano tiene campos sin valores, el porcentaje de los campos vacíos encontrados se compara con el umbral establecido. Si es igual o mayor que el umbral de posibilidad de nulos, el campo permite valores nulos. Si no existen valores nulos en el campo de datos o el porcentaje de frecuencia es menor que el umbral, el campo de datos debe tener un valor. El valor predeterminado es 5%.

Cardinalidad

La cardinalidad de una columna puede ser exclusiva, constante o no restringida. El porcentaje de valores distintos exclusivos y el porcentaje del valor constante más frecuente encontrado se comparan con los umbrales establecidos. El tipo de cardinalidad es exclusivo o constante si el porcentaje respectivo es igual o mayor que el porcentaje de umbral. De lo contrario, no está limitado.

Umbral de exclusividad
Determina si un campo de datos contiene valores exclusivos. Una columna o archivo sin formato se considera única si tiene un porcentaje de valores diferenciados igual o mayor que el umbral que ha establecido. El valor predeterminado es 95%.
Umbral de constante
Determina si una columna o archivo sin formato contiene valores constantes. Se determina que un campo es constante si tiene un único valor diferenciado con un porcentaje de frecuencia igual o mayor que el umbral de constante que ha establecido. El valor predeterminado es 99%.

Asignación de clase de datos

Las clases de datos que se incluyen en el enriquecimiento de metadatos se asignan automáticamente a una columna únicamente durante la creación de perfiles. Las asignaciones de términos no tienen un impacto en las asignaciones de clase de datos. Los umbrales determinan el nivel de confianza mínimo para una clase de datos que se debe asignar o sugerir. El umbral de asignación debe ser superior al umbral de sugerencia.

También se pueden asignar automáticamente clasificaciones relacionadas para las clases de datos asignadas automáticamente.

Puede controlar este comportamiento activando o desactivando la opción de asignación de clasificación para las clases de datos. Véase Asignación de clasificación.

Umbral de asignación

Determina el porcentaje mínimo de valores para los que la clase de datos debe coincidir con los criterios que se asignarán automáticamente a una columna. El valor predeterminado es 75%. Este valor se puede modificar mediante un umbral definido directamente en la clase de datos.

Las siguientes clases de datos predefinidas tienen un umbral predeterminado establecido:

  • Ciudad (50%)
  • Nombre de persona (50%)
  • Nombre (50%)
  • Segundo nombre (50%)
  • Apellido (50%)
  • Nombre de organización (60%)

Consulte Adición de comparación de datos a clases de datos.

Umbral de sugerencia

Determina el porcentaje mínimo de valores para los que la clase de datos debe coincidir con los criterios que se deben sugerir para una columna. El valor predeterminado es 25%.

Claves primarias

Una clave primaria puede constar de una o más columnas e identifica de forma exclusiva cada registro de una tabla. Cada tabla sólo puede tener una clave primaria.

Umbral de sugerencia
Define la confianza mínima para una columna o una combinación de columnas que se sugerirá como clave primaria. El valor predeterminado es 80%.

Nombre de visualización

Basándose en un glosario incorporado y en las abreviaturas de términos empresariales existentes en las categorías seleccionadas para el enriquecimiento, se utiliza la concordancia difusa para producir nombres semánticos para los activos de datos y las columnas que contienen como nombres alternativos más descriptivos que los nombres de origen. Estos nombres alternativos se pueden asignar o sugerir automáticamente. Los umbrales determinan el nivel de confianza mínimo para que un nombre semántico sea asignado o sugerido como nombre para mostrar. El umbral de asignación debe ser superior al umbral de sugerencia.

Umbral de asignación
Determina la confianza que debe superarse para que se asigne automáticamente un nombre de visualización a un activo de datos o columna. El valor predeterminado es 90%.
Umbral de sugerencia
Determina la confianza que debe superarse para que se sugiera un nombre de visualización para un activo de datos o una columna. El valor predeterminado es 75%.

Descripción generada por IA

La IA generativa puede producir descripciones para activos de datos completos y para las columnas que contiene un activo de datos. Un modelo de " granite.8b " tiene en cuenta el contexto de los activos y las columnas para proporcionar descripciones significativas. Estas descripciones se pueden asignar o sugerir automáticamente. Los umbrales determinan el nivel de confianza mínimo para una descripción que se va a asignar o sugerir. El umbral de asignación debe ser superior al umbral de sugerencia.

Umbral de asignación
Determina la confianza que debe superarse para que una descripción generada se asigne automáticamente a un activo de datos o columna. El ajuste por defecto es 100%.
Umbral de sugerencia
Determina la confianza que debe superarse para que se sugiera una descripción generada para un activo de datos o una columna. El valor predeterminado es 75%.

Asignación de términos

Los términos empresariales que se incluyen en el enriquecimiento de metadatos (a través de la selección de categorías) se pueden asignar o sugerir automáticamente para una columna. Los umbrales determinan el nivel de confianza mínimo para un término que se debe asignar o sugerir. El umbral de asignación debe ser superior al umbral de sugerencia. Tenga en cuenta que las asignaciones de términos no afectan a las asignaciones de clase de datos. Si un término asociado a una clase de datos se asigna a una columna mediante un modelo ML o mediante la coincidencia de nombres, la clase de datos relacionada tampoco se asigna automáticamente.

También se pueden asignar automáticamente clasificaciones relacionadas para términos asignados automáticamente.

Puede controlar este comportamiento activando o desactivando la opción de asignación de clasificación para los términos. Véase Asignación de clasificación.

Umbral de asignación

Determina el porcentaje de valores coincidentes que se deben superar para que un término se asigne automáticamente a un activo o columna de datos. El valor predeterminado es 90%.

Umbral de sugerencia

Determina el porcentaje de valores coincidentes que deben superarse para que se sugiera un término para un activo o columna de datos. El valor predeterminado es 75%.

Consejo: Si se selecciona la asignación semántica de términos como uno de los métodos de asignación de términos, considere la posibilidad de reducir este umbral a un valor comprendido entre el 65% y el 70%. De lo contrario, los términos devueltos por este método podrían no tenerse en cuenta para la asignación de términos, ya que las puntuaciones de confianza suelen ser más bajas que las puntuaciones de los otros métodos.

Determine qué método de asignación de términos se utiliza en el proyecto para generar asignaciones y sugerencias. Las asignaciones y sugerencias se realizan basándose en la puntuación de confianza más alta que devuelve uno de los métodos. Seleccione al menos uno de estos métodos:

  • Machine learning: se utiliza un modelo de aprendizaje automático para asignar términos. Puede definir para cada proyecto si este modelo se entrena con activos del proyecto o con activos de un catálogo de su elección.

  • Asignaciones basadas en clases de datos: Los términos se asignan en función de la asignación de clase de datos para una columna. El enlace adecuado entre las clases de datos y los términos es un requisito previo para obtener resultados de calidad.

  • Coincidencia de nombres: los términos se asignan en función de la similitud entre un término y el nombre del activo o columna.

  • Asignación de términos semánticos: los términos empresariales específicos del dominio se asignan y se sugieren utilizando el modelo slate.30m.semantic-automation.c2c . El modelo tiene en cuenta los nombres y las descripciones de activos y columnas, y hace coincidir semánticamente los términos con esos metadatos. Por lo tanto, los términos se pueden asignar incluso si no son coincidencias exactas.

    Consejo: Las puntuaciones de confianza de este método suelen ser más bajas que las de los otros métodos. Por lo tanto, reduzca el umbral de sugerencia a un valor comprendido entre el 65% y el 70% para que los términos devueltos por el método de asignación semántica de términos se tengan en cuenta para la asignación de términos.

De forma predeterminada, las puntuaciones de confianza devueltas por los métodos de asignación de términos seleccionados se ajustan en función de los rechazos de términos anteriores, lo que afecta a la puntuación de confianza global.

Si no desea que los rechazos de términos afecten a la puntuación de confianza, puede inhabilitar esta opción.

Puede habilitar o inhabilitar la opción independientemente de los métodos de asignación de términos que seleccione. El ámbito de entrenamiento que establezca se aplica al modelo para la asignación de términos y al modelo para ajustar la puntuación de confianza.

Utilice métodos individuales para probar y evaluar asignaciones de términos, por ejemplo, cuando tenga un conjunto grande de clases de datos personalizadas. De esta forma, también puede encontrar los valores de umbral adecuados para su proyecto.

Para obtener más información, consulte Asignación automática de términos.

Asignación de clasificación

Determine si también se asignan clasificaciones cuando se asigna automáticamente una clase de datos o un término relacionado a un activo de datos o a una columna. Puede configurarlo individualmente para clases de datos y términos.

Para los proyectos creados antes del 23 de agosto de 2024, la asignación automática de clasificaciones está desactivada por defecto.

Categorías

Puede limitar el conjunto de categorías desde las que los usuarios pueden seleccionar cuando crean nuevos enriquecimientos de metadatos a las categorías que se alinean con la finalidad del proyecto. Tenga en cuenta que esta selección no determina qué categorías se utilizan realmente en un enriquecimiento de metadatos. Categorías preseleccionadas relevantes para el proyecto. Las categorías seleccionadas determinan los términos de negocio y las clases de datos que se pueden utilizar para la creación de perfiles y la asignación automática de términos. Esta selección no limita las opciones de los usuarios al asignar clases de datos o términos manualmente. Para las asignaciones manuales, los usuarios pueden elegir clases de datos o términos empresariales de cualquier categoría a la que tengan acceso.

Importante: Las categorías a elegir se limitan a las categorías a las que tiene acceso el administrador. Esto puede dar como resultado diferentes conjuntos de categorías para distintos administradores.

Los cambios realizados en este conjunto se reflejan en nuevos enriquecimientos de metadatos y al editar un enriquecimiento de metadatos existente.

Valores avanzados de creación de perfiles

Estos valores se aplican a la creación de perfiles de datos avanzados si un usuario habilita la opción Salida externa y se puede sobrescribir para cada ejecución individual.

Determine si se capturan todos los valores distintos o un número máximo de los valores distintos más frecuentes para cada columna. El valor predeterminado es capturar los 1.000 valores distintos más frecuentes.

Establezca la ubicación de salida predeterminada para almacenar los valores capturados:

  1. Seleccione una conexión.
  2. En función de la conexión seleccionada, seleccione un esquema y una tabla, o seleccione un catálogo, un esquema y una tabla. Puede seleccionar entre catálogos, esquemas y tablas existentes. También puede crear una nueva tabla en un esquema existente.

Para obtener información sobre qué orígenes de datos están soportados como destino de salida, consulte la columna Tablas de salida en Orígenes de datos soportados. Los nombres de esquema y tabla deben seguir este convenio:

  • El primer carácter del nombre debe ser un carácter alfabético.
  • El resto del nombre puede constar de caracteres alfabéticos, caracteres numéricos o subrayados.
  • El nombre no debe contener espacios.

Análisis básico de calidad

Establezca el umbral de calidad de datos y seleccione las comprobaciones de calidad de datos que se aplicarán cuando los usuarios ejecuten el análisis de calidad como parte del enriquecimiento de metadatos.

Umbral de calidad de datos
Determina la puntuación de calidad de datos mínima necesaria para que un activo sea de calidad suficiente o buena. Las puntuaciones de calidad de datos que están por debajo del umbral especificado se marcan con un punto rojo en los resultados de enriquecimiento. Las puntuaciones de calidad de datos que son iguales o exceden el umbral especificado se marcan en verde.
Comprobaciones de calidad de datos
Seleccione las comprobaciones de calidad de datos predefinidas que desea aplicar al ejecutar el análisis de calidad como parte del enriquecimiento de metadatos. Seleccione al menos una comprobación. Cada ejecución de un enriquecimiento de metadatos que se ha configurado con la opción Ejecutar análisis de calidad de datos básicos contribuye a las puntuaciones de dimensión de calidad de datos que están vinculadas a las comprobaciones seleccionadas. Para obtener más información, consulte Comprobaciones de calidad de datos predefinidas.

Salida de calidad de datos

Establezca la ubicación de salida predeterminada para almacenar excepciones de calidad de datos y determine el número máximo de registros de excepción por comprobación de calidad de datos. La grabación de excepciones de calidad de datos en una tabla de base de datos debe estar habilitada en el activo de enriquecimiento de metadatos.

Número máximo de registros de salida de excepción

Determine cuántos problemas por columna se graban en la tabla de salida como máximo para cada comprobación de calidad de datos. El valor predeterminado es 100.

Ubicación de salida

Establezca las tablas de salida por defecto para almacenar las excepciones de calidad de datos:

  1. Seleccione una conexión.
  2. En función de la conexión seleccionada, seleccione un esquema y una tabla, o seleccione un catálogo, un esquema y una tabla para almacenar las excepciones.
  3. Opcionalmente, seleccione una tabla para almacenar las filas completas en las que se encontraron las incidencias (registros de excepciones). Puede seleccionar una tabla existente del esquema donde se crea la tabla de excepciones o crear una nueva tabla en ese esquema.

Puede seleccionar entre esquemas y tablas existentes o crear tablas nuevas en un esquema existente. Para obtener información sobre qué orígenes de datos están soportados como destino de salida, consulte la columna Tablas de salida en Orígenes de datos soportados. Los nombres de esquema y tabla deben seguir este convenio:

  • El primer carácter del nombre debe ser un carácter alfabético.
  • El resto del nombre puede constar de caracteres alfabéticos, caracteres numéricos o subrayados.
  • El nombre no debe contener espacios.

Para crear una tabla nueva para la salida, especifique un nombre en lugar de seleccionar entre las tablas disponibles. Tenga en cuenta que el nombre de tabla no debe contener ningún carácter especial.

Para almacenar sólo los problemas de calidad, se crea una tabla nueva con las siguientes definiciones de columna:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column1 VARCHAR(128),
value1 VARCHAR(64),
column2 VARCHAR(128),
value2 VARCHAR(64)

Para almacenar los problemas de calidad y los registros de excepción, se crea una nueva tabla para los problemas de calidad con estas definiciones de columna:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column VARCHAR(128),
row_id VARCHAR(64)

Se crea una tabla nueva para almacenar los registros de excepción con estas definiciones de columna:

asset_id VARCHAR(40),
row_id  VARCHAR(64),
row_data CLOB

Si selecciona una tabla existente para cualquier tipo de salida, la tabla seleccionada debe tener la estructura adecuada para la salida prevista.

Si la conexión está bloqueada, se le solicitará que especifique sus credenciales personales. Se trata de un paso único que desbloquea permanentemente la conexión en su nombre.

Relaciones clave

Una relación de clave consta de una clave primaria y foránea, y define una relación entre dos activos de datos en una base de datos relacional.

Umbral de sugerencia

Define la confianza mínima necesaria para las relaciones entre claves primarias y foráneas que se van a sugerir. El valor predeterminado es 80%.

Este umbral se aplica cuando se ejecuta un análisis de relaciones clave básico; no se aplica al análisis de relaciones clave en profundidad o al análisis de solapamiento. Puede establecer umbrales de sugerencia para estos tipos de análisis para cada ejecución individual. Consulte Identificación de relaciones.

Para que las relaciones se asignen automáticamente, seleccione la opción asignar automáticamente y establezca un umbral de asignación.

Umbral de asignación

Define la confianza mínima requerida para que las relaciones entre claves primarias y externas se asignen automáticamente. El valor predeterminado es 90%.

Cuando se asigna automáticamente una relación de clave, la clave principal correspondiente en un activo principal también se asigna automáticamente. Sin embargo, un activo de datos no puede tener asignada más de una clave principal. Por lo tanto, solo se puede asignar una relación si se detectan múltiples relaciones de claves con diferentes claves primarias para un activo. Se asigna el candidato de relación con la puntuación de confianza más alta. Esta puntuación de confianza se calcula en función de la puntuación de confianza del análisis de clave primaria. Si todos los candidatos a relaciones tienen el mismo puntaje de confianza, no se asigna ninguno de ellos.

Esta configuración se aplica cuando ejecuta un análisis básico de relaciones clave. No se aplican a análisis en profundidad de relaciones clave ni a análisis de superposición. Para estos tipos de análisis, puede habilitar la asignación automática de relaciones y establecer un umbral de asignación para cada ejecución individual. Consulte Identificación de relaciones.

Más información

Tema principal: Enriquecimiento de los activos de datos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información