IBM Match 360 with Watson inclut des outils que les ingénieurs en traitement de données peuvent utiliser pour optimiser et personnaliser votre algorithme de correspondance. En réglant votre algorithme, vous pouvez contrôler la manière dont IBM Match 360 met vos données en correspondance pour créer des entités de données de référence.
- Autorisations requises
- Pour configurer une instance de données maître, vous devez être membre du groupe d'utilisateurs DataEngineer pour le service IBM Match 360 .
Il existe quatre parties clés de la configuration et de l'optimisation de votre algorithme:
Sélection des attributs correspondants. En sélectionnant les attributs du modèle de données qui sont comparés lors du processus de mise en correspondance, vous pouvez indiquer à IBM Match 360 with Watson quels sont les points de données les plus importants pour votre algorithme. Il est important de choisir des attributs qui sont des différenciateurs forts. Les identificateurs uniques tels que les numéros de permis de conduire sont d'excellents attributs de mise en correspondance. Vous devez sélectionner les attributs correspondants avant de les exécuter pour la première fois.
Demande et exécution de révisions de paires. Demandez une révision de paire pour générer des recommandations d'optimisation intelligente qui optimisent les pondérations et les seuils de correspondance de votre algorithme de mise en correspondance. Lors d'une révision de paire, un intendant de données compare des paires d'enregistrements pour déterminer s'il s'agit d'une correspondance, peut-être d'une correspondance ou non. Les réponses de l'intendant de données informent les recommandations d'optimisation qui en résultent.
Application des recommandations d'optimisation. Une fois qu'une tâche de révision de paire est terminée, un ingénieur de données peut décider d'appliquer ou non les recommandations d'optimisation.
Définition des seuils de liaison automatique et de révision administrative. Si vous acceptez les recommandations d'optimisation des révisions de paires, les seuils de liaison automatique et d'écriture sont automatiquement déterminés, mais vous pouvez toujours remplacer les seuils manuellement si nécessaire. Chaque comparaison de correspondance d'enregistrement à enregistrement effectuée par IBM Match 360 génère un score de correspondance. Ce score peut être considéré comme une valeur de pourcentage comprise entre 0 et 100, 0 étant une non-correspondance définie et 100 étant une correspondance définie. Dans le cadre de la configuration de l'algorithme de correspondance, un ingénieur en traitement de données peut définir deux valeurs de seuil:
Le seuil de liaison automatique définit le score de correspondance minimal pour que l'algorithme prenne une décision de correspondance automatique entre deux enregistrements.
- Si le seuil de liaison automatique est faible, vous aurez plus de correspondances globales, avec probablement plus de fausses correspondances positives.
- Si le seuil de liaison automatique est élevé, vous aurez moins de correspondances globales et plus d'entités singleton (constituées d'un seul enregistrement de membre), avec probablement plus de non-correspondances de faux négatifs.
Le seuil de révision administrative définit le score de correspondance minimal pour une correspondance potentielle. Les notes inférieures au seuil d'examen administratif sont considérées comme des non-concordances. Les scores compris entre le seuil de révision administrative et le seuil de liaison automatique peuvent être envoyés via le flux de travaux de correspondances potentielles pour être résolus par un utilisateur de l'intendant de données.
Important: Si la plage d'employés de bureau n'est pas activée dans les paramètres de correspondance, le flux de travaux des correspondances potentielles ne peut pas générer de tâches. Pour plus d'informations sur le flux de travaux de correspondances potentielles, voir [ Configuration des flux de travaux de données maître ] (m360-config-workflow.html).
Pour plus d'informations sur les procédures d'optimisation d'algorithme avancées qui utilisent l'API REST IBM Match 360 , voir Optimisation d'algorithme de correspondance avancée.
Dans cette rubrique :
- Préparation au réglage de votre algorithme de correspondance
- Sélection des attributs de correspondance
- Demande de révisions de paires et application de recommandations d'optimisation
- modification manuelle des seuils de liaison automatique et de révision administrative
Préparation au réglage de votre algorithme de correspondance
Si vous n'avez pas encore effectué de mise en correspondance de vos données, vous devez d'abord sélectionner vos attributs de mise en correspondance avant de procéder à la mise en correspondance. Vous pouvez modifier vos sélections ultérieurement si nécessaire.
Vous ne pouvez pas modifier votre sensibilité de seuil de liaison automatique ou demander des révisions de paires tant que vous n'avez pas exécuté la mise en correspondance au moins une fois. Cela vous permet d'avoir un point de comparaison pour modifier votre seuil par rapport à la sensibilité par défaut. Par exemple, si vous remarquez un trop grand nombre de fausses correspondances positives dans vos données, vous pouvez augmenter la sensibilité. S'il y a trop d'enregistrements singleton, vous pouvez réduire la sensibilité.
Avant de modifier vos paramètres d'algorithme de correspondance, envisagez de créer un nouvel instantané de configuration pour sauvegarder vos paramètres en cours. Le fait de disposer d'un instantané vous permettra de revenir plus facilement à la configuration précédente ultérieurement si vous n'êtes pas satisfait des résultats de vos modifications. Pour plus d'informations sur la création d'instantanés, voir Sauvegarde et chargement des paramètres de configuration des données maître à l'aide d'instantanés.
Sélection des attributs de correspondance
Pour sélectionner les attributs utilisés par IBM Match 360 dans l'algorithme de correspondance :
Dans le menu de navigation des données de base, cliquez sur Match setup '.
Sélectionnez le type d'entité dont vous souhaitez ajuster l'algorithme de correspondance.
Accédez à l'onglet Paramètres de correspondance et sélectionnez Sélection d'attribut dans la barre latérale pour sélectionner les attributs à utiliser dans les données de correspondance. La première fois que vous accédez à cet onglet, IBM Match 360 génère automatiquement des attributs suggérés provenant de votre modèle de données à utiliser dans la mise en correspondance.
Consultez la liste des attributs correspondants et de leurs zones de composant. Ces attributs et zones seront utilisés comme base de comparaison pour les enregistrements de correspondance et créer des entités de données maître. Pour ajouter ou supprimer des attributs dans la liste, cliquez sur Éditer les attributs, puis sélectionnez ou désélectionnez les attributs et leurs zones de composants si nécessaire.
Lorsque vous choisissez vos attributs de correspondance, utilisez l'indicateur Force de correspondance pour voir une estimation du degré auquel vos modifications affectent l'algorithme de correspondance.
Si vous avez ajouté des attributs personnalisés au modèle de données, ils ne sont pas sélectionnés pour être pris en compte par défaut. Si vous souhaitez utiliser un type d'attribut personnalisé dans la correspondance, vous devez le sélectionner puis indiquer lequel de ses zones à prendre en compte. Si vous ne spécifiez aucune zone, l'algorithme de correspondance ne peut pas utiliser l'attribut.
Pour les types d'attribut non personnalisés (prédéfinis), si vous ne spécifiez pas les zones à prendre en compte, l'algorithme de correspondance utilise un ensemble de zones par défaut.
Lorsque vous êtes satisfait de vos modifications d'attribut correspondantes, cliquez sur Sauvegarder.
Régénérez vos entités concordantes en fonction de vos paramètres mis à jour. Cliquez sur l'icône d'exécution " dans la barre d'action.
Le processus de mise en correspondance prend un certain temps. Il s'exécute en arrière-plan pour que vous puissiez continuer à travailler. Vous serez averti lorsqu'il sera terminé, puis vous pourrez consulter les détails des résultats dans l'onglet Résultats de correspondance.
Demande de révisions de paires et application de recommandations d'optimisation
Utilisez des révisions de paires pour optimiser votre algorithme de correspondance. Chaque organisation dispose de différents niveaux de tolérance au risque pour les fausses correspondances, et les révisions de paires peuvent vous aider à déterminer les paramètres de correspondance appropriés.
Les ingénieurs en traitement de données peuvent demander que les révisions de paires soient effectuées par un intendant de données, puis décider d'accepter ou non les recommandations d'optimisation qui en résultent.
Pour demander une révision de paire:
Dans le menu de navigation des données de base, cliquez sur Match setup '.
Sélectionnez le type d'entité dont vous souhaitez ajuster l'algorithme de correspondance.
Sélectionnez Optimisation d'algorithme dans la barre d'options latérale pour accéder aux outils d'optimisation d'algorithme.
Dans la section Pair review , cliquez sur Request pair review.
Choisissez le nombre de paires d'enregistrements à réviser dans le cadre de cette tâche. L'examen d'un plus grand nombre de paires entraînera de meilleures recommandations d'optimisation. Si trop peu de paires sont passées en revue, IBM Match 360 ne pourra pas générer de recommandations.
Remarque: le nombre réel de paires générées peut ne pas correspondre au nombre défini dans cette étape. Le nombre de paires d'enregistrements générées dépend de la quantité de données disponible dans le système et d'autres facteurs.Cliquez sur Envoyer la demande.
IBM Match 360 commence à générer les paires d'enregistrements et à créer la tâche de révision de paire. La section Optimisation de l'algorithme vous informe du statut de la revue (Génération de paires ou Revue en cours) et suit également la progression de la tâche de revue en cours.
Pour plus d'informations sur l'exécution d'une tâche de révision de paire en tant qu'utilisateur de l'intendant de données, voir Exécution de révisions de paire.
Pour passer en revue et appliquer les recommandations d'optimisation générées par une révision de paire:
Dans le menu de navigation des données de base, cliquez sur Match setup '.
Sélectionnez le type d'entité dont vous souhaitez ajuster l'algorithme de correspondance.
Sélectionnez Optimisation d'algorithme dans la barre d'options latérale pour accéder aux outils d'optimisation d'algorithme.
Dans la section Pair review , passez en revue la progression de la dernière tâche de révision de paire. Vous pouvez voir le nombre total de paires examinées et le nombre de paires qui ont été déterminées comme étant des correspondances, non des correspondances ou des correspondances incertaines.
Dans la section Seuils , passez en revue les paramètres de l'algorithme de correspondance en cours, ainsi que les estimations des taux de faux positifs et de faux négatifs en cours.
Si trop peu de révisions de paires ont été effectuées ou si la mise en correspondance n'a pas encore été effectuée, les taux de faux positifs et de faux négatifs ne peuvent pas être affichés.
Développez la section Recommandation de seuil .
Passez en revue les mises à jour recommandées pour les paramètres d'algorithme de correspondance. La recommandation représente le seuil avec les taux de faux positifs et de faux négatifs les plus bas, en fonction de vos paires révisées.
Si vous souhaitez utiliser les paramètres recommandés, cliquez sur Appliquer la recommandation. L'application de la recommandation modifie la sensibilité de liaison automatique et les pondérations de correspondance associées de chaque attribut.
Régénérez vos entités concordantes en fonction de vos paramètres mis à jour. Allez dans l'onglet Résultats de la recherche, puis cliquez sur l'icône d'exécution de la recherche " dans la barre d'action.
Le processus de mise en correspondance prend un certain temps. Il s'exécute en arrière-plan pour que vous puissiez continuer à travailler. Vous serez averti lorsqu'il sera terminé, puis vous pourrez consulter les détails des résultats dans l'onglet Résultats de correspondance.
Modification manuelle des seuils de la liaison automatique et de la revue administrative
Si vous n'utilisez pas de révisions de paires pour générer des recommandations, la recherche de la sensibilité correcte de la liaison automatique et de la révision administrative pour vos besoins peut prendre un certain temps et des erreurs. Selon les exigences particulières de votre organisation, vous devrez peut-être répéter le processus d'ajustement de la sensibilité et réajuster vos données plusieurs fois.
Le seuil de liaison automatique total est calculé en multipliant la sensibilité de liaison automatique (0-100) par le score de correspondance maximum possible, qui est déterminé en fonction des attributs de correspondance sélectionnés et de leur poids maximum dans l'algorithme.
Pour modifier manuellement la sensibilité des seuils de vérification de l'autolink et de l'écriture de l'alogrithme correspondant:
- Dans le menu de navigation des données de base, cliquez sur Match setup '.
- Sélectionnez le type d'entité dont vous souhaitez ajuster l'algorithme de correspondance.
- Sélectionnez Optimisation d'algorithme dans la barre d'options latérale pour accéder aux outils d'optimisation d'algorithme.
- Passez en revue les paramètres en cours dans la section Seuils .
- Utilisez les valeurs de curseur ou de numéro de type pour mettre à jour vos seuils de liaison automatique et de révision administrative, puis cliquez sur Appliquer le seuil. Vous serez invité à exécuter la mise en correspondance pour appliquer vos changements d'algorithme.
- Si vous le souhaitez, vous pouvez désactiver la plage de révision administrative à l'aide du commutateur à bascule Plage de révision administrative . Si la plage d'employés de bureau est désactivée, l'algorithme peut uniquement prendre des décisions de correspondance ou de non-correspondance et ne peut pas mettre en file d'attente les tâches de correspondance potentielles pour que les intendants de données puissent y remédier.
- Régénérez vos entités concordantes en fonction de vos paramètres mis à jour. Allez dans l'onglet Résultats de la recherche, puis cliquez sur l'icône d'exécution de la recherche " dans la barre d'action.
Le processus de mise en correspondance prend un certain temps. Il s'exécute en arrière-plan pour que vous puissiez continuer à travailler. Vous serez averti lorsqu'il sera terminé, puis vous pourrez consulter les détails des résultats dans l'onglet Résultats de correspondance.
Etapes suivantes
En savoir plus
- IBM Match 360 avec des algorithmes de correspondance Watson
- Exploration des données de référence
- Gestion des données maître
Rubrique parent : Configuration des données maître