0 / 0
Volver a la versión inglesa de la documentación
Adición de comparación de datos a clases de datos.
Última actualización: 28 nov 2024
Adición de comparación de datos a clases de datos.

Puede añadir datos coincidentes a una clase de datos para especificar cómo asignar clases de datos automáticamente. Seleccione un método coincidente para especificar cómo asignar automáticamente clases de datos a los activos de datos durante el análisis de datos.

De forma predeterminada, los datos coincidentes se establecen en "Sin coincidencia automática", lo que significa que solo puede asignar la clase de datos manualmente a una columna. Para habilitar la asignación automática de una clase de datos, debe definir la coincidencia de datos.

Para añadir un método de coincidencia de datos a una clase de datos:

  1. Abra la clase de datos y asegúrese de que Coincidencia de datos esté habilitado en la visión general de la clase de datos.

    Nota:

    Una clase de datos no está habilitada para la coincidencia de datos si una clase de datos padre tiene datos coincidentes inhabilitados. No se pueden utilizar las clases de datos de borrador para la coincidencia de datos. Se pueden utilizar clases de datos inactivas para especificar cómo clasificar los datos, pero no contribuyen a ninguna acción hasta que se activan.

  2. Pulse editar junto al campo Método de coincidencia para elegir cómo especificar criterios de coincidencia. La mayoría de los métodos incluyen criterios de coincidencia de datos y de columnas. En función de los servicios desplegados, están disponibles los siguientes métodos coincidentes:

    • No hay coincidencia automática

    • Coincidencia con una lista de valores válidos - Se utiliza un diccionario de valores válidos para determinar si cada valor de una columna de base de datos pertenece a la clase de datos.

    • Coincidir con datos de referencia -Los códigos de un conjunto de datos de referencia se utilizan para determinar si cada valor de una columna de base de datos pertenece a la clase de datos.

    • Coincidencia con los criterios de una expresión regular - Se utiliza una expresión regular para determinar si cada valor de una columna de base de datos pertenece a la clase de datos.

    • Otros criterios coincidentes -La coincidencia sólo se basa en la expresión regular que se va a aplicar al nombre de columna, en el tipo de datos especificado de la columna, o en ambos. No hay criterios adicionales para evaluar los valores de la columna. Se aplican otros criterios de coincidencia antes de aplicar el método de coincidencia principal. Sólo si el nombre o el tipo de datos de la columna o ambos coinciden con lo que se ha especificado como otros criterios coincidentes, los valores de columna se evalúan con respecto a los criterios coincidentes principales.

  3. Especifique la información para definir los datos coincidentes y otros criterios coincidentes según sea necesario para el método de coincidencia seleccionado y seleccione un valor de umbral.

  4. Opcional: Establezca una prioridad coincidente. Seleccione un valor en el rango -2147483648 y 2147483647 para determinar la prioridad de la clase de datos.

  5. Publique la clase de datos.

Notas sobre la habilitación e inhabilitación de datos coincidentes:

  • Una clase de datos no está habilitada si una clase de datos padre tiene datos coincidentes inhabilitados.
  • Si inhabilita la coincidencia de datos para una clase de datos, también se inhabilitará la coincidencia para las clases de datos dependientes.

Clase de datos padre

La clase de datos padre se utiliza para organizar la clase de datos en relaciones padre/hijo. También actúa como una especie de "prefiltro" si se utiliza un método de datos de coincidencia automática: si una clase de datos padre tiene un método de datos coincidente, los métodos de coincidencia de datos para las clases de datos hijo solo se evaluarán si el método de coincidencia de datos para la clase de datos padre ha devuelto una coincidencia positiva. Esto significa que si define una clase de datos padre, esto afecta a los criterios que utiliza el proceso de clasificación de datos para decidir si la clase de datos se debe asignar o no a un campo de datos analizado.

Umbral

Este campo representa la confianza mínima que debe tener un candidato de clase de datos en una columna para que esa clase de datos se asigne realmente a la columna. Por ejemplo: supongamos que define el umbral de una clase en el 90 %. Durante el análisis, una columna coincide con la clase de datos con una confianza del 95 %, y otra columna coincide con una confianza del 89 %. Puesto que el umbral es del 90 %, la clase de datos solo se asignará a la primera columna.

Reduzca el umbral cuando desee que se produzca la asignación de clase de datos incluso si no todos los datos coinciden con la clase de datos. Puede hacerlo si la calidad de los datos no es perfecta, y también en los casos en los que sabe que la definición de método coincidente no cubre el 100 % de todo el dominio de todos los valores posibles. Un buen ejemplo es un clasificador para detectar nombres de ciudades. No resulta práctico definir una lista exacta de valores que contengan todos los nombres de las ciudades del mundo, incluidos los municipios más pequeños. Un enfoque más práctico sería entrar la lista de las 100 ciudades más grandes y reducir el umbral para reflejar el hecho de que no se espera que todos los valores de una columna sean una de estas 100 ciudades más grandes, sino que una clasificación debería ser positiva incluso si se encuentran valores suficientes (<100 %) en esa lista de las 100 ciudades más grandes.

El establecimiento de un umbral es opcional. Para el enriquecimiento de metadatos, se utiliza el umbral definido a nivel de proyecto si no establece un umbral en la clase de datos directamente. Un umbral establecido en la clase de datos siempre tiene prioridad sobre el valor del proyecto. Consulte Valores de asignación de clases de datos.

Las siguientes clases de datos predefinidas tienen un umbral predeterminado establecido en la definición de clase de datos:

Valores de umbral predeterminados
Clase de datos Umbral
Ciudad 50 %
Nombre de persona 50 %
Nombre 50 %
Segundo apellido 50 %
Apellido 50 %
Nombre de organización 60 %

Prioridad

La prioridad de la clase de datos determina el orden en el que las clases de datos candidatas deben convertirse en la clase de datos inferida. Solo se asignarán las clases de datos con una confianza por encima del umbral de confianza. Cuando los datos coincidan con varias clases de datos, se asignará la que tenga la prioridad más alta y una confianza por encima del umbral de confianza.

Algunas clases de datos predefinidas tienen un conjunto de prioridades. De lo contrario, la prioridad predeterminada es 10 para las clases de datos predefinidas con el ámbito coincidente valor. Para las clases de datos con el ámbito coincidente columna, la prioridad predeterminada es 0. Para que una clase de datos personalizada tenga prioridad sobre una clase de datos predefinida, debe definirse con una prioridad más alta.

Valores de prioridad predeterminados
Clase de datos Prioridad
Línea 1 de dirección 6
Segunda línea de la dirección 6
Línea de dirección 3 6
Booleano 16
Código de provincia de Canadá 14
Nombre de provincia de Canadá 6
Ciudad 7
Código -10
Código de país 13
Nombre de país 6
Nombre 10
Género 16
Identificador -10
Indicador -10
Apellido 7
Segundo apellido 10
Organización 7
Nombre de persona 7
Cantidad -10
Texto -10
Condado de EE. UU. 8
Código de estado de EE. UU. 14
Nombre del estado de EE. UU. 6

Coincidencia con una lista de valores válidos

Cuando se comparan datos con una lista de valores válidos, se crea una lista de valores válidos que clasifican los datos en el nivel de los valores de una columna de la base de datos. Debe proporcionar los valores uno a uno manualmente, por lo que se recomienda este método para un pequeño conjunto de valores. Para listas más largas, puede utilizar el método Coincidir con datos de referencia .

En la sección Coincidencia con lista de valores válidos, especifique una lista de valores válidos.

Criterios de coincidencia de texto:

Distingue entre mayúsculas y minúsculas
Si selecciona esta opción, solo los valores con las mismas mayúsculas y minúsculas que los valores válidos especificados se clasifican como coincidentes con la clase de datos. Si no se selecciona, se omiten las mayúsculas y minúsculas.
Espaciado exacto
Si selecciona esta opción, solo las coincidencias exactas se clasifican de forma positiva. Si no se selecciona, varios caracteres de espacio en blanco se contraen en un solo espacio antes de comparar los valores válidos con los valores que se comparan. Por ejemplo, si el valor válido es New York y el valor que se compara es New York, el valor que se compara se clasifica como coincidente, aunque haya varios caracteres de espacio en blanco en el valor válido, como en el caso de New York. No obstante, si el valor probado es NewYork sin un espacio, el valor probado se clasifica como no coincidente.
Palabras completas
Si selecciona esta opción, solo las coincidencias exactas se clasifican de forma positiva. Si no se selecciona, los valores que se encuentran como una subserie se también clasifican como coincidentes con la clase de datos. Por ejemplo, si el valor válido es Paris y el valor que se compara es Parisienne moonlight, el valor que se compara se clasifica como coincidente.

A continuación, especifique el porcentaje de valores de datos coincidentes necesarios para asignar esta clase de datos.

Comparación con datos de referencia

Cuando compara datos en un conjunto de datos de referencia, selecciona un conjunto de datos de referencia para clasificar los datos en el nivel de los valores de una columna de base de datos. Un conjunto de datos de referencia como mínimo consta de las columnas siguientes:

  • Código
  • Valor

Tenga en cuenta que este método coincidente utiliza la columna de código en el conjunto de datos de referencia para determinar la clase de datos.

Archivo CSV de ejemplo con un ejemplo de códigos de país:

code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...

Los códigos de este ejemplo, como AND, ARE, AFG, se pueden utilizar para determinar la clase de datos.

Comparación con criterios de una expresión regular

Se utiliza una expresión regular para determinar si cada valor de columna de una base de datos pertenece a la clase de datos.

Cuando se realiza la comparación con criterios en una expresión regular, se crea una expresión regular que clasifica los datos en el nivel de los valores de una columna de la base de datos. La expresión regular debe utilizar el formato JavaScript.

La expresión regular se aplica a los activos de datos con una estructura clara, por ejemplo, bases de datos, tablas o columnas.

Puede copiar y pegar cualquiera de los siguientes ejemplos de expresiones regulares en Criterios de nombre de columna. A continuación, especifique un nombre de columna para probar la expresión regular. También puede seleccionar el tipo de datos y la longitud del valor de datos.

Nota: Cuando utilice cualquiera de estos ejemplos, se recomienda encarecidamente que experimente utilizándolo en la herramienta Build Regular Expression, especificando diversos valores coincidentes y no coincidentes, para comprender exactamente lo que coincide con la expresión.

Ejemplo-Número de la seguridad social (debe tener guiones)

Esta expresión regular coincide con el número de la seguridad social. Debe tener guiones:

[0-9]{3}-[0-9]{2}-[0-9]{4}

Ejemplo - Número de teléfono (Norteamérica)

Esta expresión regular coincide con:

  • 3334445555
  • 333.444.5555
  • 333-444-5555
  • 333 444 5555
  • (333) 444 5555
  • y todas sus combinaciones
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}

Ejemplo - DOB (fecha de nacimiento)

Esta expresión regular coincide con la DOB (fecha de nacimiento):

<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
            <tns:JavaClassifier
                className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
                <tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
            </tns:ColumnNameFilter>
</tns:DataClass>

Otros criterios de coincidencia

La coincidencia se basa en criterios sobre el nombre, el tipo de datos de la columna o ambos. No hay criterios adicionales para evaluar los valores de la columna. Este criterio se aplica sobre el método de coincidencia seleccionado inicialmente.

Puede especificar una expresión regular para definir nombres de columna coincidentes y proporcionar un nombre de columna de ejemplo para la prueba. El tipo de datos de columna puede tener cualquier tipo, booleano, fecha o número. También puede definir la longitud mínima y máxima del valor de los datos.

Ejemplo de anclaje

El ejemplo siguiente está anclado. El anclaje funciona igual que la característica de búsqueda en la mayoría de los programas de software: busca el texto, tanto si aparece solo como anidado a otro texto. Si desea anclar la cadena de la expresión regular, utilice esta sintaxis:

^serie$

El "^" y el "$" anclan el carácter en la serie. El "^" representa el principio de la serie y el "$" representa el final, cuando se encuentran al principio y al final, respectivamente. El carácter "^" tiene este significado especial solo cuando es el primer carácter de un patrón; el carácter "$" tiene este significado solo cuando es el último carácter de un patrón.

Por ejemplo, si desea verificar que un valor de propiedad tiene una serie de caracteres concreta, asegúrese de anclarlo. Suponga que una etiqueta en un formulario de pedido es "pedido" si el cliente solo tiene un Pedido y "Pedidos" si el cliente tiene varios pedidos, y desea confirmar que este cliente solo tiene un pedido. En la propiedad de texto de la etiqueta, cambie el valor por una expresión regular:

^Order$

En este caso, "Pedido" es el único valor que coincide. "Pedidos" no coincide.

Más información

Tema principal: Clases de datos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información