0 / 0

Fichero CSV para la asignación de términos basada en reglas

Última actualización: 04 jul 2025
Fichero CSV para la asignación de términos basada en reglas

Cree un archivo CSV con el nombre ikc-term-assignment-rules.csv que defina las reglas para la asignación de términos y cárguelo en el proyecto. El archivo CSV debe ajustarse a las normas de formato.

Normas generales de formato

El archivo CSV debe cumplir el formato común y el tipo MIME para archivos de valores separados por comas (CSV) y debe estar codificado en UTF-8.

Limitaciones

El tamaño máximo recomendado del archivo CSV de importación es de 50 MB.

Fila de cabecera

La fila de cabecera del archivo CSV representa las propiedades que componen la regla y la acción a realizar.

Siga estas directrices para la fila de cabecera:

  • La fila de cabecera debe ser la primera del fichero y no debe repetirse.
  • Separe los nombres de las columnas con una coma. Si crea el archivo en un editor de hojas de cálculo, las comas se añaden automáticamente al guardar el archivo en formato CSV.
  • La fila de cabecera debe incluir las columnas obligatorias para la regla.
  • Puede omitir cualquier columna opcional.
  • Puede añadir otras columnas arbitrarias, que serán ignoradas.
  • Utilice los nombres exactos de las columnas de la fila de cabecera. Los nombres de columna distinguen entre mayúsculas y minúsculas.
  • Asegúrese de que los nombres de las columnas no incluyen caracteres en blanco adicionales. Los caracteres en blanco pueden ser añadidos por una hoja de cálculo o un editor de texto, pero no ser visibles. Si recibe un error de importación que indica que los nombres de las columnas son incorrectos, aunque sus columnas estén escritas y en mayúsculas correctamente, compruebe si hay espacios en blanco.

Especificación de columna

Para delimitar los valores de diferentes columnas, utilice una coma. Si crea el archivo en un editor de hojas de cálculo, las comas se añaden automáticamente al guardar el archivo en formato CSV.

Para omitir un valor de una columna, utilice una coma directamente después de la coma anterior y sin ningún otro carácter. Por ejemplo, dos comas consecutivas indican que la segunda columna está vacía.

Para encerrar campos, utilice comillas dobles (").

Rutas de categorías de términos

Debe especificar la ruta completa de la categoría para un término. Para delimitar la ruta de la categoría, utilice dos símbolos mayor que (>>) entre cada nivel de la jerarquía de categorías y entre la ruta de la categoría y el nombre del artefacto. Si inicia la ruta con >>, la categoría raíz es [uncategorized].

Columnas de reglas

El archivo CSV puede contener columnas obligatorias y opcionales.

Para definir la condición de la regla, incluya estas columnas:

OBJECT_TYPE

Tipo de objeto al que deben asignarse los términos. Valores válidos:

  • asset
  • column

Esta columna es obligatoria y no debe estar vacía.

PROPERTY

La propiedad a juego. Valores válidos:

  • name
  • description
  • mostfreqvalues
    Cualquiera de los valores más frecuentes del perfil de datos. Las reglas con esta propiedad requieren el perfilado de los datos antes de que la regla pueda aplicarse correctamente.
    OBJECT_TYPE debe ser column.
  • dataclassname
    El nombre de la clase de datos que se asigna a una columna.
    OBJECT_TYPE debe ser column.
  • assetid
    El ID del activo de datos.

Esta columna es obligatoria y no debe estar vacía.

MATCH_STRING

La cadena a comparar con la propiedad. Puedes fijar cualquier valor. Esta columna es obligatoria y no debe estar vacía.

MATCH_TYPE

Describe cómo debe compararse la cadena de coincidencia con la propiedad. Esta columna es obligatoria y no debe estar vacía. Valores válidos:

  • equals
    Coincidencia exacta sin distinción entre mayúsculas y minúsculas.
  • equalscs
    Coincidencia exacta entre mayúsculas y minúsculas.
  • contains
    Coincide si la propiedad contiene la cadena coincidente. No se distingue entre mayúsculas y minúsculas.
  • containscs
    Coincide si la propiedad contiene la cadena coincidente. Se distingue entre mayúsculas y minúsculas.

Para definir qué términos asignar con qué confianza, incluya estas columnas:

TERM_NAME

El nombre del término, incluida la ruta de categoría descrita en Ruta de categoría del término. Por ejemplo, Category 1 >> Category2 >> MyTerm.

Debe estar presente TERM_NAME o TERM_ID . Puede especificar ambas cosas. En ese caso, TERM_ID tiene prioridad. Si tiene previsto utilizar el archivo de reglas en diferentes sistemas con términos y jerarquías de categorías similares, utilice nombres de términos en lugar de ID de términos.

TERM_ID

El ID del término. Puede utilizar el ID del artefacto o el ID global.

Debe estar presente TERM_NAME o TERM_ID . Puede especificar ambas cosas. En ese caso, TERM_ID tiene prioridad. Si tiene previsto utilizar el archivo de reglas en diferentes sistemas con términos y jerarquías de categorías similares, utilice nombres de términos en lugar de ID de términos.

CONFIDENCE

Un valor flotante entre 0 y 1 que indica la confianza a asignar. El valor por defecto es 1.0 (=100%). Independientemente de la configuración regional, el punto decimal es .

Columnas adicionales que puede incluir:

ACTIVE

Si establece el valor no, la regla no se tiene en cuenta durante la asignación. Durante el desarrollo, es posible que desee desactivar determinadas reglas sin eliminarlas del archivo CSV.

GROUP

Un grupo de reglas que permite configurar reglas de asignación más complejas, como, If a column name contains X and its description contains Y, then assign term T1 and T2.

Debe definirse al menos una condición y una acción por grupo de reglas.

Opciones del archivo de reglas

En el campo de descripción del archivo de reglas cargado puede proporcionar opciones adicionales para influir en la forma en que se aplican las reglas. Añade líneas con el formato <option-name>=<option-value>. El campo de descripción también puede contener cualquier otro texto.

default_confidence_if_missing

Un valor flotante entre 0 y 1 que indica una confianza por defecto distinta de 1.0 si la columna CONFIDENCE está vacía.

use_expanded_names

Define cuándo un nombre generado también debe tenerse en cuenta al evaluar las reglas. Esta opción sólo es válida si las capacidades de enriquecimiento basadas en gen AI están activadas en IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.

Valores posibles:

  • NEVER: No tener en cuenta los nombres generados.
  • SUGGESTED: Considera un nombre generado sugerido.
  • ACCEPTED: Considere un nombre generado asignado.

El valor predeterminado es ACCEPTED.

use_generated_descriptions

Define cuándo una descripción generada debe considerarse también una descripción cuando se evalúan las reglas. Esta opción sólo es válida si las capacidades de enriquecimiento basadas en gen AI están activadas en IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.

Valores posibles:

  • NEVER: No tener en cuenta las descripciones generadas
  • SUGGESTED: Considere una descripción generada sugerida.
  • ACCEPTED: Considere una descripción generada asignada.

El valor predeterminado es ACCEPTED.

Ejemplos

Ejemplos de normas

El siguiente ejemplo describe tres reglas:

  1. Si una columna tiene un nombre que contiene la cadena address, asigne el término personal data con un 100% de confianza. 100% es el valor por defecto si la columna CONFIDENCE está vacía.
  2. Si una columna tiene un nombre que contiene la cadena customer, asigne el término data subject con un 90% de confianza.
  3. Si un activo tiene una descripción que contiene la cadena client, asígnele también el término data subject, pero con un 100% de confianza.

Los nombres de los términos se escriben como una ruta en el árbol de categorías: GDPR es una categoría raíz que contiene los términos personal data y data subject.

La columna COMMENT contiene información adicional sobre la regla, pero no afecta a la asignación de términos.

OBJECT_TYPE PROPIEDAD TIPO DE COINCIDENCIA MATCH_STRING NOMBRE_TÉRMINO CONFIANZA COMENTAR
columna nombre contiene dirección RGPD >> datos personales La dirección es un dato personal
columna nombre contiene cliente RGPD >> interesado 0.9 Los clientes son los interesados
activo descripción contiene cliente RGPD >> interesado Los clientes son los interesados

Ejemplo de grupo de reglas

El siguiente ejemplo muestra un grupo de reglas G1 que une dos condiciones y un grupo de reglas G2 que define dos términos a asignar para una condición:

  1. G1: Si el nombre de una columna contiene address y su descripción contiene identifier entonces asigne el término online identifier con una confianza del 92%.
  2. G2: Si una columna tiene postfach (" P.O. Box" en alemán) como uno de sus valores más frecuentes, entonces asigne el término European Union con un 90% de confianza y el término data subject con un 95% de confianza.
OBJECT_TYPE PROPIEDAD TIPO DE COINCIDENCIA MATCH_STRING NOMBRE_TÉRMINO CONFIANZA GRUPO
columna nombre contiene dirección G1
columna descripción contiene identificador RGPD >> identificador en línea 0.92 G1
columna valoresmásfrecuentes contiene postfach GDPR >> Unión Europea 0.9 G2
RGPD >> interesado 0.95 G2

Ejemplo de descripción de un fichero de reglas

El siguiente ejemplo es una descripción válida de un fichero de reglas:

This the best rule file in the world.

default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED

Closing remarks.

Tema principal: Ajustes de enriquecimiento por defecto