Puede añadir datos coincidentes a una clase de datos para especificar cómo asignar clases de datos automáticamente. Seleccione un método coincidente para especificar cómo asignar automáticamente clases de datos a los activos de datos durante el análisis de datos.
De forma predeterminada, los datos coincidentes se establecen en "Sin coincidencia automática", lo que significa que solo puede asignar la clase de datos manualmente a una columna. Para habilitar la asignación automática de una clase de datos, debe definir la coincidencia de datos.
Para añadir un método de coincidencia de datos a una clase de datos:
Abra la clase de datos y asegúrese de que Coincidencia de datos esté habilitado en la visión general de la clase de datos.
Nota:Una clase de datos no está habilitada para la coincidencia de datos si una clase de datos padre tiene datos coincidentes inhabilitados. No se pueden utilizar las clases de datos de borrador para la coincidencia de datos. Se pueden utilizar clases de datos inactivas para especificar cómo clasificar los datos, pero no contribuyen a ninguna acción hasta que se activan.
Pulse editar junto al campo Método de coincidencia para elegir cómo especificar criterios de coincidencia. La mayoría de los métodos incluyen criterios de coincidencia de datos y de columnas. En función de los servicios desplegados, están disponibles los siguientes métodos coincidentes:
No hay coincidencia automática
Coincidencia con una lista de valores válidos - Se utiliza un diccionario de valores válidos para determinar si cada valor de una columna de base de datos pertenece a la clase de datos.
Coincidir con datos de referencia -Los códigos de un conjunto de datos de referencia se utilizan para determinar si cada valor de una columna de base de datos pertenece a la clase de datos.
Coincidencia con los criterios de una expresión regular - Se utiliza una expresión regular para determinar si cada valor de una columna de base de datos pertenece a la clase de datos.
Otros criterios coincidentes -La coincidencia sólo se basa en la expresión regular que se va a aplicar al nombre de columna, en el tipo de datos especificado de la columna, o en ambos. No hay criterios adicionales para evaluar los valores de la columna. Se aplican otros criterios de coincidencia antes de aplicar el método de coincidencia principal. Sólo si el nombre o el tipo de datos de la columna o ambos coinciden con lo que se ha especificado como otros criterios coincidentes, los valores de columna se evalúan con respecto a los criterios coincidentes principales.
Especifique la información para definir los datos coincidentes y otros criterios coincidentes según sea necesario para el método de coincidencia seleccionado y seleccione un valor de umbral.
Opcional: Establezca una prioridad coincidente. Seleccione un valor en el rango -2147483648 y 2147483647 para determinar la prioridad de la clase de datos.
Publique la clase de datos.
Notas sobre la habilitación e inhabilitación de datos coincidentes:
- Una clase de datos no está habilitada si una clase de datos padre tiene datos coincidentes inhabilitados.
- Si inhabilita la coincidencia de datos para una clase de datos, también se inhabilitará la coincidencia para las clases de datos dependientes.
Clase de datos padre
La clase de datos padre se utiliza para organizar la clase de datos en relaciones padre/hijo. También actúa como una especie de "prefiltro" si se utiliza un método de datos de coincidencia automática: si una clase de datos padre tiene un método de datos coincidente, los métodos de coincidencia de datos para las clases de datos hijo solo se evaluarán si el método de coincidencia de datos para la clase de datos padre ha devuelto una coincidencia positiva. Esto significa que si define una clase de datos padre, esto afecta a los criterios que utiliza el proceso de clasificación de datos para decidir si la clase de datos se debe asignar o no a un campo de datos analizado.
Umbral
Este campo representa la confianza mínima que debe tener un candidato de clase de datos en una columna para que esa clase de datos se asigne realmente a la columna. Por ejemplo: supongamos que define el umbral de una clase en el 90 %. Durante el análisis, una columna coincide con la clase de datos con una confianza del 95 %, y otra columna coincide con una confianza del 89 %. Puesto que el umbral es del 90 %, la clase de datos solo se asignará a la primera columna.
Reduzca el umbral cuando desee que se produzca la asignación de clase de datos incluso si no todos los datos coinciden con la clase de datos. Puede hacerlo si la calidad de los datos no es perfecta, y también en los casos en los que sabe que la definición de método coincidente no cubre el 100 % de todo el dominio de todos los valores posibles. Un buen ejemplo es un clasificador para detectar nombres de ciudades. No resulta práctico definir una lista exacta de valores que contengan todos los nombres de las ciudades del mundo, incluidos los municipios más pequeños. Un enfoque más práctico sería entrar la lista de las 100 ciudades más grandes y reducir el umbral para reflejar el hecho de que no se espera que todos los valores de una columna sean una de estas 100 ciudades más grandes, sino que una clasificación debería ser positiva incluso si se encuentran valores suficientes (<100 %) en esa lista de las 100 ciudades más grandes.
El establecimiento de un umbral es opcional. Para el enriquecimiento de metadatos, se utiliza el umbral definido a nivel de proyecto si no establece un umbral en la clase de datos directamente. Un umbral establecido en la clase de datos siempre tiene prioridad sobre el valor del proyecto. Consulte Valores de asignación de clases de datos.
Las siguientes clases de datos predefinidas tienen un umbral predeterminado establecido en la definición de clase de datos:
Clase de datos | Umbral |
---|---|
Ciudad | 50 % |
Nombre de persona | 50 % |
Nombre | 50 % |
Segundo apellido | 50 % |
Apellido | 50 % |
Nombre de organización | 60 % |
Prioridad
La prioridad de la clase de datos determina el orden en el que las clases de datos candidatas deben convertirse en la clase de datos inferida. Solo se asignarán las clases de datos con una confianza por encima del umbral de confianza. Cuando los datos coincidan con varias clases de datos, se asignará la que tenga la prioridad más alta y una confianza por encima del umbral de confianza.
Algunas clases de datos predefinidas tienen un conjunto de prioridades. De lo contrario, la prioridad predeterminada es 10 para las clases de datos predefinidas con el ámbito coincidente valor. Para las clases de datos con el ámbito coincidente columna, la prioridad predeterminada es 0. Para que una clase de datos personalizada tenga prioridad sobre una clase de datos predefinida, debe definirse con una prioridad más alta.
Clase de datos | Prioridad |
---|---|
Línea 1 de dirección | 6 |
Segunda línea de la dirección | 6 |
Línea de dirección 3 | 6 |
Booleano | 16 |
Código de provincia de Canadá | 14 |
Nombre de provincia de Canadá | 6 |
Ciudad | 7 |
Código | -10 |
Código de país | 13 |
Nombre de país | 6 |
Nombre | 10 |
Género | 16 |
Identificador | -10 |
Indicador | -10 |
Apellido | 7 |
Segundo apellido | 10 |
Organización | 7 |
Nombre de persona | 7 |
Cantidad | -10 |
Texto | -10 |
Condado de EE. UU. | 8 |
Código de estado de EE. UU. | 14 |
Nombre del estado de EE. UU. | 6 |
Coincidencia con una lista de valores válidos
Cuando se comparan datos con una lista de valores válidos, se crea una lista de valores válidos que clasifican los datos en el nivel de los valores de una columna de la base de datos. Debe proporcionar los valores uno a uno manualmente, por lo que se recomienda este método para un pequeño conjunto de valores. Para listas más largas, puede utilizar el método Coincidir con datos de referencia .
En la sección Coincidencia con lista de valores válidos, especifique una lista de valores válidos.
Criterios de coincidencia de texto:
- Distingue entre mayúsculas y minúsculas
- Si selecciona esta opción, solo los valores con las mismas mayúsculas y minúsculas que los valores válidos especificados se clasifican como coincidentes con la clase de datos. Si no se selecciona, se omiten las mayúsculas y minúsculas.
- Espaciado exacto
- Si selecciona esta opción, solo las coincidencias exactas se clasifican de forma positiva. Si no se selecciona, varios caracteres de espacio en blanco se contraen en un solo espacio antes de comparar los valores válidos con los valores que se comparan. Por ejemplo, si el valor válido es
New York
y el valor que se compara esNew York
, el valor que se compara se clasifica como coincidente, aunque haya varios caracteres de espacio en blanco en el valor válido, como en el caso deNew York
. No obstante, si el valor probado esNewYork
sin un espacio, el valor probado se clasifica como no coincidente. - Palabras completas
- Si selecciona esta opción, solo las coincidencias exactas se clasifican de forma positiva. Si no se selecciona, los valores que se encuentran como una subserie se también clasifican como coincidentes con la clase de datos. Por ejemplo, si el valor válido es
Paris
y el valor que se compara esParisienne moonlight
, el valor que se compara se clasifica como coincidente.
A continuación, especifique el porcentaje de valores de datos coincidentes necesarios para asignar esta clase de datos.
Comparación con datos de referencia
Cuando compara datos en un conjunto de datos de referencia, selecciona un conjunto de datos de referencia para clasificar los datos en el nivel de los valores de una columna de base de datos. Un conjunto de datos de referencia como mínimo consta de las columnas siguientes:
- Código
- Valor
Tenga en cuenta que este método coincidente utiliza la columna de código en el conjunto de datos de referencia para determinar la clase de datos.
Archivo CSV de ejemplo con un ejemplo de códigos de país:
code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...
Los códigos de este ejemplo, como AND
, ARE
, AFG
, se pueden utilizar para determinar la clase de datos.
Comparación con criterios de una expresión regular
Se utiliza una expresión regular para determinar si cada valor de columna de una base de datos pertenece a la clase de datos.
Cuando se realiza la comparación con criterios en una expresión regular, se crea una expresión regular que clasifica los datos en el nivel de los valores de una columna de la base de datos. La expresión regular debe utilizar el formato JavaScript.
La expresión regular se aplica a los activos de datos con una estructura clara, por ejemplo, bases de datos, tablas o columnas.
Puede copiar y pegar cualquiera de los siguientes ejemplos de expresiones regulares en Criterios de nombre de columna. A continuación, especifique un nombre de columna para probar la expresión regular. También puede seleccionar el tipo de datos y la longitud del valor de datos.
Ejemplo - Número de teléfono (Norteamérica)
Esta expresión regular coincide con:
- 3334445555
- 333.444.5555
- 333-444-5555
- 333 444 5555
- (333) 444 5555
- y todas sus combinaciones
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}
Ejemplo - DOB (fecha de nacimiento)
Esta expresión regular coincide con la DOB (fecha de nacimiento):
<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
<tns:JavaClassifier
className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
<tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
</tns:ColumnNameFilter>
</tns:DataClass>
Otros criterios de coincidencia
La coincidencia se basa en criterios sobre el nombre, el tipo de datos de la columna o ambos. No hay criterios adicionales para evaluar los valores de la columna. Este criterio se aplica sobre el método de coincidencia seleccionado inicialmente.
Puede especificar una expresión regular para definir nombres de columna coincidentes y proporcionar un nombre de columna de ejemplo para la prueba. El tipo de datos de columna puede tener cualquier tipo, booleano, fecha o número. También puede definir la longitud mínima y máxima del valor de los datos.
Ejemplo de anclaje
El ejemplo siguiente está anclado. El anclaje funciona igual que la característica de búsqueda en la mayoría de los programas de software: busca el texto, tanto si aparece solo como anidado a otro texto. Si desea anclar la cadena de la expresión regular, utilice esta sintaxis:
^
serie$
El "^" y el "$" anclan el carácter en la serie. El "^" representa el principio de la serie y el "$" representa el final, cuando se encuentran al principio y al final, respectivamente. El carácter "^" tiene este significado especial solo cuando es el primer carácter de un patrón; el carácter "$" tiene este significado solo cuando es el último carácter de un patrón.
Por ejemplo, si desea verificar que un valor de propiedad tiene una serie de caracteres concreta, asegúrese de anclarlo. Suponga que una etiqueta en un formulario de pedido es "pedido" si el cliente solo tiene un Pedido y "Pedidos" si el cliente tiene varios pedidos, y desea confirmar que este cliente solo tiene un pedido. En la propiedad de texto de la etiqueta, cambie el valor por una expresión regular:
^Order$
En este caso, "Pedido" es el único valor que coincide. "Pedidos" no coincide.
Más información
- Detalles de clases de datos predefinidas
- Perfiles de activos
- Creación de un enriquecimiento de metadatos
- Muestras deIBM Knowledge Catalog Repositorio GitHub
Tema principal: Clases de datos