0 / 0
Volver a la versión inglesa de la documentación
Asignación automática de términos
Última actualización: 28 oct 2024
Asignación automática de términos

La asignación automática de términos es el proceso de correlacionar automáticamente términos empresariales con activos de datos y columnas de activos como parte del enriquecimiento de metadatos.

Además de los términos empresariales asignados automáticamente, también puede asignar términos manualmente editando las propiedades de activo de datos en un proyecto o un catálogo, o cuando trabaje con resultados de enriquecimiento.

Si la asignación automática de términos se configura como parte del enriquecimiento de metadatos, estas asignaciones se generan mediante varios métodos. Estos métodos también generan sugerencias para los términos a asignar.

Los términos se asignan en función del nivel de confianza. Inicialmente, estas asociaciones se representan como candidatas que los expertos y encargados de los dominios pueden revisar y asignar manualmente. La confianza para un término asignado o sugerido se muestra como un valor de porcentaje. Este valor representa la confianza global. Consulte Cómo se calcula la confianza global. El nivel de confianza para cuando se sugiere o asigna automáticamente un término viene determinado por los valores de enriquecimiento del proyecto. El nivel de confianza predeterminado que se debe superar es el 75 % para las sugerencias de términos y del 90 % para la asignación automática de términos candidatos. Consulte Valores de enriquecimiento predeterminados. Un administrador de proyectos puede personalizar estos valores.

Solo se pueden asignar términos empresariales publicados. Los términos asignados no afectan a la asignación de clase de datos.

Calidad de las asignaciones de términos

Para lograr asignaciones de términos de alta calidad, tenga en cuenta los siguientes consejos:

  • Asegúrese de que las categorías que desea utilizar en el enriquecimiento de metadatos incluyen sólo artefactos de gobernabilidad relevantes. Es posible que desee tener esto en cuenta cuando configure el vocabulario de negocio.

  • Experimente con los umbrales de asignación de términos. El cambio de los umbrales puede tener un gran impacto en el número de términos asignados. Busque el umbral en el que el número de falsos positivos es bajo y no faltan demasiados verdaderos positivos.

  • Analice algunos de los falsos positivos para encontrar un patrón o una razón válida por la que se sugirieron o asignaron estos términos. Si la mayoría de los falsos positivos se pueden atribuir a un algoritmo específico, considere la posibilidad de inhabilitar dicho algoritmo en los valores de enriquecimiento y volver a ejecutar la asignación de términos. Compruebe si esto reduce el número de falsos positivos.

  • Asegúrese de entrenar el modelo ML en un catálogo en el que publique sólo asignaciones de términos revisadas cuidadosamente. Preferiblemente, dedique un catálogo a la formación de modelos.

  • Para la asignación de términos basada en datos de columna o metadatos, cree relaciones entre términos y clases de datos. Asegúrese de que las clases de datos que utilice no produzcan falsos positivos.

Métodos de asignación de términos

Puede utilizar todos o un subconjunto de los métodos de asignación de términos disponibles.

Coincidencia de nombres

El método de coincidencia de nombres basa su resultado en la similitud entre el nombre o abreviaturas del término y el nombre del activo o columna de datos. Por ejemplo, es posible que una columna CREDNUM esté asociada a un término número de tarjeta de crédito debido a la similitud entre los dos nombres. La coincidencia de nombres sólo coincide con nombres de columna y activos de datos con nombres de términos y abreviaturas. Las descripciones no se tienen en cuenta. La asignación de términos basada en ML maneja nombres y descripciones.

Basado en asignación de clase de datos

El método de asignación basado en clases genera asignaciones basadas en la clasificación de datos. Si se ha seleccionado una clase de datos para una columna de activo como resultado del análisis de columna o manualmente, y si esta clase de datos está enlazada a uno o más términos empresariales, estos términos se sugieren o se asignan si superan los umbrales respectivos. El nivel de confianza de término es el mismo que la confianza de la clase de datos con la que está enlazado el término. Por ejemplo, es probable que una columna COL1 clasificada como dirección de correo electrónico con un 90 % de confianza se asigne al término Dirección de correo electrónico si la clase de datos y el término están enlazados. Puesto que no hay ninguna similitud entre el nombre de la columna y el término, el método de coincidencia de nombres no es capaz de realizar esta asociación.

Para habilitar el método de asignación basado en clase, es importante revisar el enlace de clase de datos a término antes de ejecutar la asignación de término porque el enlace adecuado es un requisito previo importante para los resultados de alta calidad.

Aprendizaje de máquina

El método de aprendizaje automático (ML) para generar asignaciones de términos utiliza los modelos de aprendizaje automático supervisados incorporados. Estos modelos comprenden un modelo para asignaciones de términos y uno para eliminaciones de términos.

Los modelos ML se entrenan basándose en términos publicados y en asignaciones de términos presentes en los datos de entrenamiento de un proyecto o un catálogo. Consulte Entrenamiento de datos para modelos de aprendizaje automático. Si no hay asignaciones de términos disponibles, el entrenamiento para el modelo de asignación de términos se centra en la similitud lingüística de palabras en nombres y descripciones de términos y activos o columnas de datos. Los términos se pueden asignar en función de esa similitud. Con un número creciente de asignaciones revisadas, los términos se pueden asignar independientemente de la similitud lingüística porque las asignaciones de términos en columnas con características similares pasan a estar disponibles.

Asignación de términos semánticos

Este método utiliza un modelo de base IBM Slate perfeccionado para asignar y sugerir términos empresariales específicos del dominio. El modelo tiene en cuenta nombres y descripciones de activos y columnas y compara semánticamente los términos con esos metadatos. Por lo tanto, los términos se pueden asignar incluso si no son coincidencias exactas.

Términos rechazados

Al revisar las asignaciones de términos en los resultados de enriquecimiento de metadatos, es posible que encuentre términos que considere que no son precisos para un activo de datos. Puede eliminar estos términos y, por lo tanto, proporcionar comentarios negativos. Estos términos se consideran rechazados. Si el ámbito de entrenamiento es el proyecto, las puntuaciones de confianza de las asignaciones de términos se pueden ajustar basándose en estos términos rechazados cuando vuelva a ejecutar la asignación automática de términos. Los valores de confianza individuales devueltos por cada método de asignación de términos seleccionado se ajustan mediante este valor de confianza negativo para calcular la puntuación de confianza global de un término. Consulte Cómo se calcula la puntuación de confianza global.

Datos de entrenamiento para modelos de aprendizaje automático

Para cada proyecto, puede definir en los valores de enriquecimiento predeterminados si el modelo ML incorporado utilizado para la asignación automática de términos se entrena con activos del proyecto o con activos de un catálogo de su elección. El ajuste de las puntuaciones de confianza basadas en rechazos sólo está disponible si el ámbito de entrenamiento es el proyecto.

El valor predeterminado es entrenar los modelos dentro del proyecto. En este caso, los modelos se entrenan con cualquier término de negocio publicado y cualquier asignación o rechazo de término disponible en las columnas que se han marcado como revisadas en el proyecto.

Cuando selecciona un catálogo como ámbito de entrenamiento, el modelo para asignaciones de términos se entrena con los términos de negocio publicados y las asignaciones de términos disponibles en el catálogo seleccionado. El modelo para rechazos de términos no se puede entrenar con activos de un catálogo.

¿Cuándo se entrenan los modelos?

El entrenamiento de modelos para los modelos ML incorporados se desencadena cuando se inicia un trabajo de enriquecimiento de metadatos y se cumple una de estas condiciones:

  • Todavía no hay ningún modelo disponible.

  • Se ha creado un nuevo término de negocio o se ha actualizado un término existente desde la última vez que se entrenó el modelo. El término no tiene que asignarse a ningún activo o columna.

  • Proyecto de ámbito de entrenamiento: Al menos 21 columnas se marcaron como revisadas desde la última vez que se entrenó el modelo.

    Catálogo de ámbito de entrenamiento: las asignaciones en al menos 21 columnas del catálogo seleccionado han cambiado porque los términos se han asignado o eliminado desde la última vez que se entrenó el modelo.

  • El último entrenamiento no se completó con éxito o en un período de tiempo razonable.

Si no hay información disponible sobre rechazos de términos en el primer uso del modelo para ajustes de puntuación de confianza, el entrenamiento inicial para este modelo se produce más tarde, lo que significa que inicialmente se entrena cuando la información sobre términos rechazados está disponible en un ciclo de entrenamiento de modelo posterior.

Cómo se calcula la confianza general

Un método que asocia un término con un activo de datos calcula una confianza, que es un valor numérico entre un mínimo configurable y 1. El valor mínimo lo define el umbral de sugerencia para la asignación de términos que se puede configurar en los valores de enriquecimiento predeterminados.

La confianza para un término asignado o sugerido se muestra como un valor de porcentaje. Este valor representa la confianza global. La confianza global es el máximo de los valores de confianza devueltos por los métodos de asignación de términos seleccionados y puede ser ajustado por cualquier valor de confianza negativo devuelto por el modelo ML para eliminaciones de términos.

Puede elegir si los valores de confianza que devuelven los métodos de asignación de términos seleccionados se ajustan en función de los términos empresariales rechazados anteriormente.

Ejemplo:

Suponiendo que todos los métodos están habilitados, los valores de confianza para una columna ADDRESS y el término Dirección inicial:

Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4

El valor de confianza real para cada método se calcula restando el valor de confianza devuelto para los términos rechazados:

Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1

La confianza global es 0.1 porque es el valor más alto calculado para un método.

Si se calcula el mismo valor de confianza para un término para varios métodos, sólo se asigna uno automáticamente. El orden en el que se selecciona dicho término es el siguiente:

  1. Término encontrado por el método de asignación basado en clase de datos
  2. Término encontrado por el método de asignación de términos semánticos
  3. Término encontrado por el método ML
  4. Término encontrado por el método de coincidencia de nombres

Cómo los nuevos resultados de análisis actualizan las asignaciones de términos existentes

Al volver a ejecutar un enriquecimiento, un nuevo resultado de análisis actualiza las asignaciones de términos de la siguiente manera:

Cómo se actualizan las asignaciones de términos
Tipo de asignación de términos El activo o columna de datos se revisa El activo o columna de datos no se ha revisado
Términos asignados manualmente Los términos permanecen sin cambios. Los términos permanecen sin cambios.
Términos rechazados Los términos permanecen sin cambios. Los términos permanecen sin cambios.
Términos sugeridos Los términos se suprimen y se sustituyen por los nuevos términos sugeridos. Los términos se suprimen y se sustituyen por los nuevos términos sugeridos.
Términos asignados automáticamente Los términos existentes permanecen sin cambios. Los términos recién detectados se añaden como términos sugeridos. Las asignaciones de términos existentes se actualizan.

Más información

Tema principal: Resultados de enriquecimiento de metadatos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información