Vous pouvez ajouter des données correspondant à une classe de données pour indiquer comment affecter automatiquement des classes de données. Sélectionnez une méthode de correspondance pour spécifier comment affecter automatiquement des classes de données aux actifs de données lors de l'analyse des données.
Par défaut, les données correspondantes sont définies sur " Pas de correspondance automatique ", ce qui signifie que vous ne pouvez affecter la classe de données que manuellement à une colonne. Pour permettre l'affectation automatique d'une classe de données, vous devez définir la correspondance des données.
Pour ajouter une méthode de correspondance de données à une classe de données :
Ouvrez la classe de données et vérifiez que la correspondance des données est activé dans la présentation de la classe de données.
Remarque :Une classe de données n'est pas activée pour la mise en correspondance des données si une classe de données parent a des données de mise en correspondance désactivées. Les brouillons de classes de données ne peuvent pas être utilisés pour la mise en correspondance des données. Des classes de données inactives peuvent être utilisées pour spécifier comment classifier des données, mais elles ne contribuent à aucune action tant qu'elles ne deviennent pas actives.
Cliquez sur édition à coté de la zone Méthode de correspondance pour choisir comment définir des critères de correspondance. La plupart des méthodes incluent les critères de correspondance de données et de colonne. En fonction des services déployés, les méthodes de correspondance suivantes sont disponibles:
Aucune correspondance automatique
Correspondance avec une liste de valeurs valides - Un dictionnaire de valeurs valides est utilisé pour déterminer si chaque valeur d'une colonne de base de données appartient à la classe de données.
Correspondance avec les données de référence -Les codes d'un jeu de données de référence sont utilisés pour déterminer si chaque valeur d'une colonne de base de données appartient à la classe de données.
Correspondance avec des critères dans une expression régulière - Une expression régulière est utilisée pour déterminer si chaque valeur d'une colonne de base de données appartient à la classe de données.
Autres critères de correspondance -La correspondance est basée uniquement sur l'expression régulière à appliquer au nom de la colonne, sur le type de données spécifié de la colonne ou sur les deux. Il n'existe pas de critères supplémentaires pour évaluer les valeurs de la colonne. D'autres critères de correspondance sont appliqués avant la méthode de correspondance principale. Uniquement si le nom ou le type de données de la colonne ou les deux correspondent à ce qui est spécifié comme autres critères de correspondance, les valeurs de colonne sont évaluées par rapport aux critères de correspondance principaux.
Entrez les informations pour définir les données correspondantes et les autres critères de correspondance requis pour votre méthode de correspondance sélectionnée et sélectionnez une valeur Seuil.
Facultatif: définissez une priorité correspondante. Sélectionnez une valeur comprise entre -2147483648 et 2147483647 pour déterminer la priorité de la classe de données.
Publiez la classe de données.
Remarques sur l'activation et la désactivation des données correspondantes:
- Une classe de données n'est pas activée si la mise en correspondance des données est désactivée pour sa classe de données parent.
- Si vous désactivez la mise en correspondance des données pour une classe de données, la mise en correspondance pour les classes de données dépendantes est également désactivée.
Classe de données parent
La classe de données parent est utilisée pour organiser la classe de données dans les relations parent/enfants. Il agit également comme une sorte de " préfiltre " si une méthode de couplage automatique de données est utilisée : si une classe de données parent possède une méthode de données correspondante, les méthodes de correspondance des données pour les classes de données enfant ne seront évaluées que si la méthode correspondante pour la classe de données parent a renvoyé une correspondance positive. Cela signifie que si vous définissez une classe de données parent, celle-ci a un impact sur les critères utilisés par le processus de classification des données pour déterminer si la classe de données doit être affectée ou non à une zone de données analysée.
Seuil
Cette zone représente la confiance minimale qu'un candidat de classe de données doit avoir sur une colonne de sorte que cette classe de données soit effectivement affectée à la colonne. Par exemple, vous définissez 90 % comme seuil d'une classe. Au cours de l'analyse, la mise en correspondance d'une colonne avec la classe de données est établie avec un niveau de fiabilité de 95 %, et la mise en correspondance d'une autre colonne est établie avec un niveau de fiabilité de 89 %. Le seuil étant de 90 %, la classe de données ne sera affectée qu'à la première colonne.
Abaissez le seuil lorsque vous souhaitez que l'affectation de la classe de données se produise, même si toutes les données ne correspondent pas à la classe de données. Vous pouvez le faire si la qualité des données n'est pas parfaite, et aussi dans les cas où vous savez que la définition de méthode correspondante ne couvre pas 100 % du domaine complet de toutes les valeurs possibles. Un bon exemple est un discriminant utilisé pour détecter des noms de ville. Il n'est pas pratique de définir une liste précise de valeurs contenant tous les noms de ville du monde entier, y compris les noms des plus petites villes. Une approche plus pratique serait d'entrer dans la liste des 100 plus grandes villes et de réduire le seuil pour refléter le fait que vous ne vous attendez pas à ce que toutes les valeurs d'une colonne soient l'une de ces 100 plus grandes villes, mais qu'une classification devrait être positive même si suffisamment de valeurs (< 100 %) se trouvent dans cette liste des 100 plus grandes villes.
La définition d'un seuil est facultative. Pour l'enrichissement des métadonnées, le seuil défini au niveau du projet est utilisé si vous ne définissez pas de seuil directement sur la classe de données. Un seuil défini sur la classe de données est toujours prioritaire sur le paramètre de projet. Voir Paramètres d'affectation de classe de données.
Les classes de données prédéfinies suivantes ont un seuil par défaut défini dans la définition de la classe de données:
Classe de données | Seuil |
---|---|
Ville | Réduction de 50 % |
Nom personne | Réduction de 50 % |
Prénom | Réduction de 50 % |
Deuxième prénom | Réduction de 50 % |
Nom | Réduction de 50 % |
Raison sociale | 60 % |
Priorité
La priorité de la classe de données détermine l'ordre dans lequel les classes de données candidates doivent devenir la classe de données induite. Seules les classes de données ayant une confiance supérieure au seuil de confiance seront affectées. Lorsque les données correspondent à plusieurs classes de données, celles qui ont la priorité la plus élevée et une confiance supérieure au seuil de confiance seront affectées.
Certaines classes de données prédéfinies ont une priorité définie. Sinon, la priorité par défaut est 10 pour les classes de données prédéfinies avec la portée correspondante valeur. Pour les classes de données avec la portée correspondante colonne, la priorité par défaut est 0. Pour qu'une classe de données personnalisée soit prioritaire sur une classe de données prédéfinie, elle doit être définie avec une priorité plus élevée.
Classe de données | Priorité |
---|---|
Ligne d'adresse 1 | 12 |
Ligne d'adresse 2 | 12 |
Adresse ligne 3 | 12 |
Booléen | 16 |
Canada Province Code | 14 |
Canada Province Name | 12 |
Ville | 7 |
Coder | -10 |
Code pays | 13 |
Nom du pays | 12 |
Prénom | 10 |
Sexe | 16 |
Identificateur | -10 |
Indicateur | -10 |
Nom | 7 |
Deuxième prénom | 10 |
Entreprise | 7 |
Nom personne | 7 |
Quantité | -10 |
Texte | -10 |
US County | 8 |
Code état (Etats-Unis) | 14 |
US State Name | 12 |
Mise en correspondance avec une liste de valeurs valides
Lorsque vous mettez en correspondance des données avec une liste de valeurs valides, vous créez une liste de valeurs valides qui classifient vos données au niveau des valeurs d'une colonne de base de données. Vous devez fournir les valeurs une par une manuellement ; par conséquent, cette méthode est recommandée pour un petit ensemble de valeurs. Pour les listes plus longues, vous pouvez utiliser la méthode Match to reference data .
Dans la section Correspondance avec la liste des valeurs valides, indiquez une liste de valeurs valides.
Critères de correspondance de texte :
- Sensible à la casse
- Si vous sélectionnez cette option, seules les valeurs ayant la même casse que les valeurs valides spécifiées sont classifiées comme correspondant à la classe de données. Sinon, la casse est ignorée.
- Espacement exact
- Si vous sélectionnez cette option, seules les correspondances exactes sont classées de manière positive. Sinon, plusieurs espaces sont réduits en un seule espace avant la comparaison des valeurs valides avec les valeurs testées. Par exemple, si la valeur valide est
New York
et que la valeur testée estNew York
, la valeur testée est classée comme correspondante, même si la valeur valide contient plusieurs espaces (par exemple,New York
). Toutefois, si la valeur testée estNewYork
sans espace, elle est classifiée comme non correspondante. - Mots entiers
- Si vous sélectionnez cette option, seules les correspondances exactes sont classées de manière positive. Sinon, les valeurs trouvées en tant que sous-chaînes sont également classifiées comme correspondant à la classe de données. Par exemple, si la valeur valide est
Paris
et que la valeur testée estParisienne moonlight
, la valeur testée est classifiée comme correspondante.
Indiquez ensuite le pourcentage de valeurs de données correspondantes requis pour affecter cette classe de données.
Mise en correspondance avec des données de référence
Lorsque vous correspondez des données à un jeu de données de référence, vous sélectionnez un ensemble de données de référence pour classer vos données au niveau des valeurs d'une colonne de base de données. Un jeu de données de référence comprend au minimum les colonnes suivantes:
- Coder
- Valeur
Notez que cette méthode de correspondance utilise la colonne de code du jeu de données de référence pour déterminer la classe de données.
Exemple de fichier CSV avec un exemple de codes pays:
code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...
Les codes de cet exemple, tels que AND
, ARE
, AFG
, peuvent être utilisés pour déterminer la classe de données.
Mise en correspondance avec des critères dans une expression régulière
Une expression régulière est utilisée pour déterminer si chaque valeur d'une colonne de base de données appartient à la classe de données.
Lorsque vous effectuez une mise en correspondance avec des critères dans une expression régulière, vous créez une expression régulière qui classifie vos données au niveau des valeurs d'une colonne de base de données. L'expression régulière doit utiliser le format JavaScript.
L'expression régulière s'applique aux actifs de données dont la structure est claire, par exemple les bases de données, les tables ou les colonnes.
Vous pouvez copier et coller l'un des exemples suivants pour les expressions régulières dans les critères de nom de colonne. Indiquez ensuite un nom de colonne pour tester l'expression régulière. Vous pouvez également sélectionner le type de données et la longueur de la valeur de données.
Exemple - Numéro de téléphone (Amérique du Nord)
Cette expression régulière correspond à :
- 3334445555
- 333.444.5555
- 333-444-5555
- 333 444 5555
- (333) 444 5555
- et toutes les combinaisons de ceux-ci
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}
Exemple - Date de naissance (DOB)
Cette expression régulière correspond à la date de naissance (DOB) :
<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
<tns:JavaClassifier
className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
<tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
</tns:ColumnNameFilter>
</tns:DataClass>
Autres critères de mise en correspondance
La mise en correspondance est basée sur des critères relatifs au nom et / ou au type de données de la colonne. Il n'existe pas de critères supplémentaires pour évaluer les valeurs de la colonne. Ce critère est appliqué en plus de la méthode de correspondance initialement sélectionnée.
Vous pouvez spécifier une expression régulière pour définir des noms de colonne correspondants et fournir un exemple de nom de colonne à des fins de test. Les données de colonne peuvent être de n'importe quel type, Booléen, Date ou Nombre. Vous pouvez également définir la longueur minimale et la longueur maximale de la valeur de données.
Exemple d'ancrage
L'exemple ci-après est ancré. Le principe de l'ancrage est le même que celui de la fonction de recherche que l'on trouve dans la plupart des logiciels : lorsque vous recherchez un texte, vous pouvez spécifier s'il doit être recherché seul (mot entier) ou s'il peut apparaître dans une autre chaîne de texte. Si vous souhaitez ancrer la chaîne de votre expression régulière, utilisez la syntaxe suivante :
^
chaîne$
Les caractères "^" et "$" ancre les caractères dans la chaîne. Le "^" représente le début de la chaîne et le "$" représente la fin, lorsqu'on le trouve au début et à la fin, respectivement. Le caractère "^" a cette signification particulière seulement lorsqu'il s'agit du premier caractère d'un motif ; le "$" n'a cette signification que lorsqu'il s'agit du dernier caractère d'un motif.
Par exemple, si vous voulez vérifier qu'une valeur de propriété comporte une chaîne de caractères spécifique, prenez soin de l'ancrer. Supposons qu'un libellé dans un bon de commande est " Commande " si le client n'a qu'une commande, et est " Commandes " si le client a plusieurs commandes, et vous souhaitez confirmer que ce client n'a qu'une seule commande. Pour cela, remplacez la valeur de la propriété 'text' du libellé par l'expression régulière suivante :
^Order$
Dans ce cas, " Commande " est la seule valeur qui correspond. " Commandes " ne correspond pas.
En savoir plus
- Détails des classes de données prédéfinies
- Profils d'actifs
- Création d'un enrichissement de métadonnées
- Dépôt GitHub des échantillons duIBM Knowledge Catalog
Rubrique parent : Classes de données