L'affectation automatique de termes est le processus qui consiste à mapper automatiquement des termes métier à des actifs de données et des colonnes d'actifs dans le cadre de l'enrichissement de métadonnées.
En plus des termes métier affectés automatiquement, vous pouvez également affecter des termes manuellement en éditant les propriétés d'actif de données dans un projet ou un catalogue, ou lorsque vous travaillez avec des résultats d'enrichissement.
Si l'affectation automatique de terme est configurée dans le cadre de l'enrichissement de métadonnées, ces affectations sont générées par plusieurs méthodes. Ces méthodes génèrent également des suggestions pour les termes à affecter.
Les termes sont affectés en fonction du niveau de fiabilité. Initialement, ces associations sont représentées sous forme de candidats que des experts de domaine et des intendants peuvent passer en revue et affecter manuellement. La confiance pour un terme attribué ou suggéré s'affiche sous la forme d'une valeur en pourcentage. Cette valeur représente le niveau de confiance global. Voir Mode de calcul de la confiance globale. Le niveau de confiance pour lorsqu'un terme est suggéré ou automatiquement affecté est déterminé par les paramètres d'enrichissement du projet. Le niveau de confiance par défaut à dépasser est de 75 % pour les suggestions à terme et de 90 % pour l'attribution automatique de termes candidats. Voir Paramètres d'enrichissement par défaut. Un administrateur de projet peut personnaliser ces paramètres.
Seuls les termes métier publiés peuvent être affectés. Les termes affectés n'affectent pas l'affectation de classe de données.
Qualité des affectations de terme
Pour obtenir des affectations de terme de haute qualité, tenez compte des conseils suivants:
Assurez-vous que les catégories que vous souhaitez utiliser dans l'enrichissement de métadonnées incluent uniquement les artefacts de gouvernance appropriés. Vous souhaiterez peut-être en tenir compte déjà lorsque vous configurez votre vocabulaire métier.
Testez les seuils d'affectation de terme. La modification des seuils peut avoir un impact considérable sur le nombre de termes affectés. Recherchez le seuil où le nombre de faux positifs est faible et où peu de vrais positifs sont manqués.
Analysez certains des faux positifs pour trouver un motif ou une raison valide pour laquelle ces termes ont été suggérés ou affectés. Si la plupart des faux positifs peuvent être attribués à un algorithme spécifique, désactivez cet algorithme dans les paramètres d'enrichissement et réexécutez l'affectation de terme. Vérifiez si cela réduit le nombre de faux positifs.
Veillez à entraîner le modèle ML dans un catalogue dans lequel vous ne publiez que des affectations de terme soigneusement révisées. De préférence, dédiez un catalogue à l'entraînement de modèle.
Pour l'affectation de terme basée sur les données de colonne ou les métadonnées, créez des relations entre les termes et les classes de données. Assurez-vous que les classes de données que vous utilisez ne produisent pas de faux positifs.
Méthodes d'affectation de terme
Vous pouvez utiliser la totalité ou un sous-ensemble des méthodes d'affectation de terme disponibles.
Correspondance de nom
La méthode de correspondance de nom fonde son résultat sur la similarité entre le nom du terme ou les abréviations et le nom de l'actif de données ou de la colonne. Par exemple, une colonne NUMCRED peut être associée à un terme Numéro de carte de crédit en raison de la similarité entre les deux noms. La correspondance de nom correspond uniquement aux noms d'actif de données et de colonne avec des noms de terme et des abréviations. Les descriptions ne sont pas prises en compte. L'affectation de terme basée sur ML gère les noms et les descriptions.
Basé sur l'affectation de classe de données
La méthode d'affectation basée sur les classes génère des affectations basées sur la classification des données. Si une classe de données a été sélectionnée pour une colonne d'actif à la suite d'une analyse de colonne ou manuellement, et si cette classe de données est liée à un ou plusieurs termes métier, ces termes sont suggérés ou affectés s'ils dépassent les seuils respectifs. Le niveau de confiance du terme est identique à celui de la classe de données à laquelle le terme est lié. Par exemple, une colonne COL1 classée comme adresse électronique avec une confiance de 90 % est susceptible d'être affectée à l'expression adresse e-mail si la classe de données et le terme sont liés. Comme il n'y a pas de similarité entre le nom de la colonne et le terme, la méthode de correspondance de nom n'est pas capable de créer cette association.
Pour activer la méthode d'affectation basée sur les classes, il est important de passer en revue les liens entre les classes de données et les termes avant d'exécuter l'affectation des termes, car un lien approprié est un prérequis important pour des résultats de haute qualité.
Apprentissage automatique
La méthode d'apprentissage automatique (ML) permettant de générer des affectations de terme utilise les modèles d'apprentissage automatique supervisés intégrés. Ces modèles comprennent un modèle pour les affectations de terme et un modèle pour les suppressions de terme.
Les modèles d'apprentissage automatique sont entraînés en fonction des termes publiés et des affectations de terme présentes dans les données d'apprentissage d'un projet ou d'un catalogue. Voir Données d'apprentissage pour les modèles d'apprentissage automatique. Si aucune affectation de terme n'est disponible, la formation du modèle d'affectation de terme se concentre sur la similarité linguistique des mots dans les noms et les descriptions des termes et des actifs de données ou des colonnes. Les termes peuvent être attribués en fonction de cette similarité. Avec un nombre croissant d'affectations révisées, les termes peuvent être affectés indépendamment de la similarité linguistique car des affectations de termes sur des colonnes présentant des caractéristiques similaires deviennent disponibles.
Affectation de terme sémantique
Cette méthode utilise un modèle de base IBM Slate affiné pour attribuer et suggérer des termes commerciaux spécifiques à un domaine. Le modèle prend en compte les noms et les descriptions des actifs et des colonnes et fait correspondre sémantiquement les termes à ces métadonnées. Ainsi, les termes peuvent être affectés même s'ils ne sont pas des correspondances exactes.
Termes rejetés
Lorsque vous passez en revue les affectations de terme dans les résultats d'enrichissement de métadonnées, vous pouvez trouver des termes qui, selon vous, ne sont pas exacts pour un actif de données. Vous pouvez supprimer ces termes et fournir ainsi des commentaires négatifs. Ces termes sont considérés comme rejetés. Si la portée de formation est le projet, les scores de confiance des affectations de terme peuvent être ajustés en fonction de ces termes rejetés lorsque vous réexécutez l'affectation de terme automatique. Les valeurs de confiance individuelles renvoyées par chaque méthode d'affectation de terme sélectionnée sont ajustées par cette valeur de confiance négative pour le calcul de la cote de confiance globale d'un terme. Voir Comment la cote de confiance globale est calculée.
Données d'apprentissage pour les modèles d'apprentissage automatique
Pour chaque projet, vous pouvez définir dans les paramètres d'enrichissement par défaut si le modèle ML intégré utilisé pour l'affectation automatique de terme est entraîné avec des actifs du projet ou avec des actifs d'un catalogue de votre choix. L'ajustement des scores de confiance en fonction des rejets est disponible uniquement si la portée de la formation est le projet.
Le paramètre par défaut consiste à entraîner les modèles dans le projet. Dans ce cas, les modèles sont entraînés avec tous les termes métier publiés et toutes les affectations de termes disponibles ou les rejets sur les colonnes qui ont été marquées comme révisées dans le projet.
Lorsque vous sélectionnez un catalogue comme portée de formation, le modèle des affectations de terme est entraîné avec tous les termes métier publiés et toutes les affectations de terme disponibles dans le catalogue sélectionné. Le modèle des rejets de terme ne peut pas être entraîné avec des actifs d'un catalogue.
Quand les modèles sont-ils entraînés?
L'entraînement de modèle pour les modèles d'apprentissage automatique intégrés est déclenché lorsqu'un travail d'enrichissement de métadonnées est démarré et que l'une des conditions suivantes est vérifiée:
Aucun modèle n'est encore disponible.
Un nouveau terme métier a été créé ou un terme existant a été mis à jour depuis la dernière formation du modèle. Le terme n'a pas besoin d'être affecté à des actifs ou à des colonnes.
Projet de portée de la formation: au moins 21 colonnes ont été marquées comme révisées depuis la dernière formation du modèle.
Catalogue de portée d'entraînement: les affectations sur au moins 21 colonnes du catalogue sélectionné ont été modifiées car des termes ont été affectés ou supprimés depuis le dernier entraînement du modèle.
La dernière formation ne s'est pas déroulée avec succès ou dans un délai raisonnable.
Si aucune information sur les rejets de terme n'est disponible lors de la première utilisation du modèle pour les ajustements de score de confiance, l'entraînement initial de ce modèle est effectué ultérieurement, ce qui signifie qu'il est initialement entraîné lorsque des informations sur les termes rejetés sont disponibles lors d'un cycle d'entraînement de modèle ultérieur.
Comment la confiance globale est calculée
Une méthode qui associe un terme à un actif de données calcule une confiance, qui est une valeur numérique comprise entre un minimum configurable et 1. La valeur minimale est définie par le seuil de suggestion pour l'affectation de terme qui peut être configurée dans les paramètres d'enrichissement par défaut.
La confiance pour un terme attribué ou suggéré s'affiche sous la forme d'une valeur en pourcentage. Cette valeur représente le niveau de confiance global. Le niveau de confiance global est le maximum des valeurs de confiance renvoyées par les méthodes d'affectation de terme sélectionnées et peut être ajusté par toute valeur de confiance négative renvoyée par le modèle ML pour les suppressions de terme.
Vous pouvez choisir si les valeurs de confiance renvoyées par les méthodes d'affectation de terme sélectionnées sont ajustées en fonction des termes métier précédemment rejetés.
Exemple :
En supposant que toutes les méthodes sont activées, les valeurs de confiance pour une colonne ADDRESS et un terme Home Address:
Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4
La valeur de confiance réelle pour chaque méthode est calculée en soustrayant la valeur de confiance renvoyée pour les termes rejetés:
Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1
Le niveau de confiance global est 0.1 car il s'agit de la valeur la plus élevée calculée pour une méthode.
Si la même valeur de confiance pour un terme est calculée pour plusieurs méthodes, une seule est automatiquement affectée. L'ordre dans lequel un tel terme est sélectionné est le suivant:
- Terme trouvé par la méthode d'affectation basée sur la classe de données
- Terme trouvé par la méthode d'affectation de terme sémantique
- Terme trouvé par la méthode ML
- Terme trouvé par la méthode de correspondance de nom
Comment les nouveaux résultats de l'analyse mettent à jour les affectations de termes existantes
Lorsque vous ré-exécutez un enrichissement, un nouveau résultat d'analyse met à jour les affectations de termes comme suit :
Type d'affectation de terme | L'actif de données ou la colonne est révisé | L'actif de données ou la colonne n'est pas révisé |
---|---|---|
Termes affectés manuellement | Les termes restent inchangés. | Les termes restent inchangés. |
Termes rejetés | Les termes restent inchangés. | Les termes restent inchangés. |
Termes suggérés | Les termes sont supprimés et remplacés par les nouveaux termes suggérés. | Les termes sont supprimés et remplacés par les nouveaux termes suggérés. |
Termes affectés automatiquement | Les termes existants restent inchangés. Les nouveaux termes détectés sont ajoutés en tant que termes suggérés. | Les affectations de terme existantes sont mises à jour. |
En savoir plus
Rubrique parent : Résultats d'enrichissement des métadonnées