Fichero CSV para la asignación de términos basada en reglas
Cree un archivo CSV con el nombre ikc-term-assignment-rules.csv
que defina las reglas para la asignación de términos y cárguelo en el proyecto. El archivo CSV debe ajustarse a las normas de formato.
Normas generales de formato
El archivo CSV debe cumplir el formato común y el tipo MIME para archivos de valores separados por comas (CSV) y debe estar codificado en UTF-8.
Limitaciones
El tamaño máximo recomendado del archivo CSV de importación es de 50 MB.
Fila de cabecera
La fila de cabecera del archivo CSV representa las propiedades que componen la regla y la acción a realizar.
Siga estas directrices para la fila de cabecera:
- La fila de cabecera debe ser la primera del fichero y no debe repetirse.
- Separe los nombres de las columnas con una coma. Si crea el archivo en un editor de hojas de cálculo, las comas se añaden automáticamente al guardar el archivo en formato CSV.
- La fila de cabecera debe incluir las columnas obligatorias para la regla.
- Puede omitir cualquier columna opcional.
- Puede añadir otras columnas arbitrarias, que serán ignoradas.
- Utilice los nombres exactos de las columnas de la fila de cabecera. Los nombres de columna distinguen entre mayúsculas y minúsculas.
- Asegúrese de que los nombres de las columnas no incluyen caracteres en blanco adicionales. Los caracteres en blanco pueden ser añadidos por una hoja de cálculo o un editor de texto, pero no ser visibles. Si recibe un error de importación que indica que los nombres de las columnas son incorrectos, aunque sus columnas estén escritas y en mayúsculas correctamente, compruebe si hay espacios en blanco.
Especificación de columna
Para delimitar los valores de diferentes columnas, utilice una coma. Si crea el archivo en un editor de hojas de cálculo, las comas se añaden automáticamente al guardar el archivo en formato CSV.
Para omitir un valor de una columna, utilice una coma directamente después de la coma anterior y sin ningún otro carácter. Por ejemplo, dos comas consecutivas indican que la segunda columna está vacía.
Para encerrar campos, utilice comillas dobles ("
).
Rutas de categorías de términos
Debe especificar la ruta completa de la categoría para un término. Para delimitar la ruta de la categoría, utilice dos símbolos mayor que (>>) entre cada nivel de la jerarquía de categorías y entre la ruta de la categoría y el nombre del artefacto. Si inicia la ruta con >>
, la categoría raíz es [uncategorized].
Columnas de reglas
El archivo CSV puede contener columnas obligatorias y opcionales.
Para definir la condición de la regla, incluya estas columnas:
OBJECT_TYPE
Tipo de objeto al que deben asignarse los términos. Valores válidos:
asset
column
Esta columna es obligatoria y no debe estar vacía.
PROPERTY
La propiedad a juego. Valores válidos:
name
description
mostfreqvalues
Cualquiera de los valores más frecuentes del perfil de datos. Las reglas con esta propiedad requieren el perfilado de los datos antes de que la regla pueda aplicarse correctamente.OBJECT_TYPE
debe sercolumn
.dataclassname
El nombre de la clase de datos que se asigna a una columna.OBJECT_TYPE
debe sercolumn
.assetid
El ID del activo de datos.
Esta columna es obligatoria y no debe estar vacía.
MATCH_STRING
La cadena a comparar con la propiedad. Puedes fijar cualquier valor. Esta columna es obligatoria y no debe estar vacía.
MATCH_TYPE
Describe cómo debe compararse la cadena de coincidencia con la propiedad. Esta columna es obligatoria y no debe estar vacía. Valores válidos:
equals
Coincidencia exacta sin distinción entre mayúsculas y minúsculas.equalscs
Coincidencia exacta entre mayúsculas y minúsculas.contains
Coincide si la propiedad contiene la cadena coincidente. No se distingue entre mayúsculas y minúsculas.containscs
Coincide si la propiedad contiene la cadena coincidente. Se distingue entre mayúsculas y minúsculas.
Para definir qué términos asignar con qué confianza, incluya estas columnas:
TERM_NAME
El nombre del término, incluida la ruta de categoría descrita en Ruta de categoría del término. Por ejemplo,
Category 1 >> Category2 >> MyTerm
.Debe estar presente
TERM_NAME
oTERM_ID
. Puede especificar ambas cosas. En ese caso,TERM_ID
tiene prioridad. Si tiene previsto utilizar el archivo de reglas en diferentes sistemas con términos y jerarquías de categorías similares, utilice nombres de términos en lugar de ID de términos.TERM_ID
El ID del término. Puede utilizar el ID del artefacto o el ID global.
Debe estar presente
TERM_NAME
oTERM_ID
. Puede especificar ambas cosas. En ese caso,TERM_ID
tiene prioridad. Si tiene previsto utilizar el archivo de reglas en diferentes sistemas con términos y jerarquías de categorías similares, utilice nombres de términos en lugar de ID de términos.CONFIDENCE
Un valor flotante entre 0 y 1 que indica la confianza a asignar. El valor por defecto es 1.0 (=100%). Independientemente de la configuración regional, el punto decimal es
.
Columnas adicionales que puede incluir:
ACTIVE
Si establece el valor
no
, la regla no se tiene en cuenta durante la asignación. Durante el desarrollo, es posible que desee desactivar determinadas reglas sin eliminarlas del archivo CSV.GROUP
Un grupo de reglas que permite configurar reglas de asignación más complejas, como,
If a column name contains X and its description contains Y, then assign term T1 and T2.
Debe definirse al menos una condición y una acción por grupo de reglas.
Opciones del archivo de reglas
En el campo de descripción del archivo de reglas cargado puede proporcionar opciones adicionales para influir en la forma en que se aplican las reglas. Añade líneas con el formato <option-name>=<option-value>
. El campo de descripción también puede contener cualquier otro texto.
default_confidence_if_missing
Un valor flotante entre 0 y 1 que indica una confianza por defecto distinta de 1.0 si la columna
CONFIDENCE
está vacía.use_expanded_names
Define cuándo un nombre generado también debe tenerse en cuenta al evaluar las reglas. Esta opción sólo es válida si las capacidades de enriquecimiento basadas en gen AI están activadas en IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.
Valores posibles:
NEVER
: No tener en cuenta los nombres generados.SUGGESTED
: Considera un nombre generado sugerido.ACCEPTED
: Considere un nombre generado asignado.
El valor predeterminado es
ACCEPTED
.use_generated_descriptions
Define cuándo una descripción generada debe considerarse también una descripción cuando se evalúan las reglas. Esta opción sólo es válida si las capacidades de enriquecimiento basadas en gen AI están activadas en IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.
Valores posibles:
NEVER
: No tener en cuenta las descripciones generadasSUGGESTED
: Considere una descripción generada sugerida.ACCEPTED
: Considere una descripción generada asignada.
El valor predeterminado es
ACCEPTED
.
Ejemplos
Ejemplos de normas
El siguiente ejemplo describe tres reglas:
- Si una columna tiene un nombre que contiene la cadena
address
, asigne el términopersonal data
con un 100% de confianza. 100% es el valor por defecto si la columnaCONFIDENCE
está vacía. - Si una columna tiene un nombre que contiene la cadena
customer
, asigne el términodata subject
con un 90% de confianza. - Si un activo tiene una descripción que contiene la cadena
client
, asígnele también el términodata subject
, pero con un 100% de confianza.
Los nombres de los términos se escriben como una ruta en el árbol de categorías: GDPR
es una categoría raíz que contiene los términos personal data
y data subject
.
La columna COMMENT
contiene información adicional sobre la regla, pero no afecta a la asignación de términos.
OBJECT_TYPE | PROPIEDAD | TIPO DE COINCIDENCIA | MATCH_STRING | NOMBRE_TÉRMINO | CONFIANZA | COMENTAR |
---|---|---|---|---|---|---|
columna | nombre | contiene | dirección | RGPD >> datos personales | La dirección es un dato personal | |
columna | nombre | contiene | cliente | RGPD >> interesado | 0.9 | Los clientes son los interesados |
activo | descripción | contiene | cliente | RGPD >> interesado | Los clientes son los interesados |
Ejemplo de grupo de reglas
El siguiente ejemplo muestra un grupo de reglas G1
que une dos condiciones y un grupo de reglas G2
que define dos términos a asignar para una condición:
G1
: Si el nombre de una columna contieneaddress
y su descripción contieneidentifier
entonces asigne el términoonline identifier
con una confianza del 92%.G2
: Si una columna tienepostfach
(" P.O. Box" en alemán) como uno de sus valores más frecuentes, entonces asigne el términoEuropean Union
con un 90% de confianza y el términodata subject
con un 95% de confianza.
OBJECT_TYPE | PROPIEDAD | TIPO DE COINCIDENCIA | MATCH_STRING | NOMBRE_TÉRMINO | CONFIANZA | GRUPO |
---|---|---|---|---|---|---|
columna | nombre | contiene | dirección | G1 | ||
columna | descripción | contiene | identificador | RGPD >> identificador en línea | 0.92 | G1 |
columna | valoresmásfrecuentes | contiene | postfach | GDPR >> Unión Europea | 0.9 | G2 |
RGPD >> interesado | 0.95 | G2 |
Ejemplo de descripción de un fichero de reglas
El siguiente ejemplo es una descripción válida de un fichero de reglas:
This the best rule file in the world.
default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED
Closing remarks.
Tema principal: Ajustes de enriquecimiento por defecto