Pour identifier les relations clés entre les actifs de données ou pour identifier les données qui se chevauchent ou qui sont redondantes dans les colonnes, exécutez une analyse des relations.
Les relations sont des connexions entre des actifs de données qui contiennent des informations connexes. Vous créez de telles relations en indiquant que les valeurs clés d'un actif de données correspondent à des valeurs clés d'un ou de plusieurs autres actifs de données. L'identification de ces connexions vous aide à découvrir comment vos données s'intègrent.
Une analyse de relation de clé identifie des paires de clés primaires et externes avec une relation un à plusieurs entre deux actifs de données dans une base de données relationnelle. Une clé primaire est une colonne ou un ensemble de colonnes qui identifie de manière unique chaque enregistrement d'un actif de données. Une clé externe est une colonne ou un ensemble de colonnes d'un actif de données qui fait référence aux colonnes de clé primaire d'un autre actif de données. Vous pouvez utiliser les informations de relation pour déterminer comment les actifs de données peuvent être joints.
Un chevauchement se produit lorsque le contenu est disponible à partir de plusieurs sources. L'analyse de chevauchement recherche des structures identiques ou similaires dans les actifs de données en comparant les valeurs de colonne au sein d'un actif de données ou entre les actifs de données. Par conséquent, l'analyse du chevauchement vous aide à déterminer si les données sont uniques ou similaires et dans quelle mesure elles peuvent se chevaucher.
Les résultats des analyses de relations sont cumulatifs. Chaque fois que vous exécutez une analyse, l'analyse ajoute de nouvelles relations ou met à jour des relations qui ont été identifiées lors des exécutions d'analyse précédentes.
- Prérequis
- Exécution d'une analyse de relation clé
- Affectation, annulation de l'affectation ou suppression de relations de clé
- Exécution d'une analyse de chevauchement
- Vérification des résultats de l'analyse de chevauchement
- Accès aux détails d'exécution de travail
Prérequis
Le service DataStage doit être déployé pour exécuter des analyses de relation.
Toutes les opérations exécutées dans le cadre d'un enrichissement de métadonnées requièrent des données d'identification pour une autorisation sécurisée. En règle générale, votre clé d'API utilisateur est utilisée pour exécuter ces opérations de longue durée sans interruption. Si les données d'identification ne sont pas disponibles lorsque vous tentez d'exécuter une analyse de relation de clé ou une analyse de chevauchement, vous êtes invité à créer une clé d'API. Cette clé d'API est ensuite sauvegardée en tant que données d'identification de la tâche. Voir Gestion de la clé d'API utilisateur.
Si l'une des connexions aux sources de données est verrouillée, vous êtes invité à entrer vos données d'identification personnelles. Cette étape unique déverrouille définitivement les connexions pour vous.
Vous pouvez exécuter des analyses de relations approfondies sans créer de profils d'actif au préalable. L'analyse des relations de clé approfondie ou de chevauchement ne repose pas sur des informations de profil telles que la distribution des fréquences des valeurs de colonne. A la place, les données de colonne sont analysées directement.
Exécution d'une analyse des relations clés
Exécutez une analyse des relations de clé pour identifier les relations de clé à une seule colonne ou les relations de clé composée. L'analyse détermine les candidats potentiels à la relation et suggère les meilleures relations entre les actifs de données en fonction du niveau de confiance de chaque relation potentielle. Pour le calcul de la confiance de la relation, les informations suivantes sont prises en compte:
- Nombre de valeurs de la clé primaire présentes dans la clé externe
- Nombre de valeurs orphelines dans la clé externe
- Similarité entre les noms des colonnes entre la clé primaire et la clé externe
- Position des colonnes dans les actifs de données.
Les relations entre les colonnes de différents types de données peuvent être détectées comme suit:
- Types de données BIGINT et SMALLINT
- Types de données BIGINT et DECIMAL
- Types de données BIGINT et CHAR
- Types de données BIGINT et VARCHAR
- Types de données DECIMAL et VARCHAR
- Types de données CHAR et VARCHAR
- Types de données VARCHAR et LONG VARCHAR
Les paires dont le niveau de fiabilité dépasse le seuil de suggestion défini sont répertoriées en tant que relations candidates pour un actif. Vous pouvez également activer l'attribution automatique des relations. Pour plus d'informations sur les seuils, voir Relations clés .
Ce type d'analyse de relation vérifie la similarité du nom de la colonne et des données profilées dans les actifs de données sélectionnés. Si vous n'exécutez pas une analyse approfondie, les seuils définis dans les paramètres d'enrichissement par défaut sont appliqués.
Si vous choisissez d'exécuter une analyse approfondie, les données de colonne réelles sont vérifiées pour identifier les clés primaires et externes. Vous pouvez également choisir d'identifier les relations de clés composées ou d'exécuter l'analyse sur un échantillon de données au lieu de l'actif de données complet. Pour une analyse approfondie, les seuils définis dans les paramètres d'enrichissement ne prennent pas effet. Au lieu de cela, vous pouvez définir des seuils pour chaque analyse individuelle.
L'analyse approfondie prend plus de temps que l'analyse des relations clés par défaut. Si vous choisissez également d'identifier les clés composées, le temps de traitement augmente de manière significative. L'analyse peut s'exécuter pendant des jours ou plus. Seules les colonnes adjacentes sont vérifiées, où adjacentes signifie directement les unes à côté des autres si le type de données des colonnes autorise l'analyse de clé ou proches les unes des autres lorsque les colonnes intermédiaires sont ignorées car leurs types de données ne permettent pas l'analyse de clé.
Pour exécuter une analyse de relation clé pour un ou plusieurs actifs:
Ouvrez l'actif d'enrichissement des métadonnées.
Dans l'onglet Actifs , sélectionnez les actifs requis.
Sélectionnez Enrichir > Identifier les relations dans la barre d'outils. Le type d'analyse par défaut est Clé.
Vous exécutez ce type d'analyse de relation généralement sur plusieurs colonnes dans les actifs de données sélectionnés. Par défaut, la longueur de la clé composée est définie sur 2.
L'analyse approfondie des relations clés vérifie les données de colonne réelles et est donc un processus qui prend beaucoup de temps. Vous pouvez exécuter l'analyse sur un échantillon de données au lieu de l'ensemble de l'actif de données.
Les paramètres d'enrichissement par défaut pour les relations clés ne prennent pas effet. Différents paramètres par défaut pour les suggestions et l'affectation automatique s'appliquent à l'analyse approfondie des relations :
- Le seuil de suggestion par défaut est de 25 %.
- L'affectation automatique des relations est activée. Le seuil d'affectation par défaut est de 90 %.
Vous pouvez remplacer ces paramètres par défaut pour chaque analyse individuelle.
Pour exécuter une analyse de relation de clé superficielle sur des colonnes uniques dans vos actifs de données, vous pouvez utiliser l'option d'enrichissement Définir des relations .
Cliquez sur le bouton Exécuter.
Affectation, annulation de l'affectation ou suppression de relations de clé
Une fois l'analyse des relations clés terminée, vous pouvez afficher et gérer les relations ici:
Dans l'onglet Clés du panneau des détails de l'actif, vous voyez une icône plus si des relations de candidat ont été détectées. Cliquez sur l'icône plus, vérifiez les relations suggérées pour cet actif et affectez les relations les plus appropriées. Vous pouvez également annuler l'affectation ou supprimer des relations pour cet actif.
Le lien Afficher les relations de clé dans la zone d'enrichissement est actif. Cliquez sur le lien pour afficher la liste de toutes les relations de clés détectées dans l'onglet Clés . Vérifiez et affectez les relations suggérées ou annulez l'affectation des relations. Vous pouvez également supprimer les relations suggérées et affectées.
Pour afficher uniquement les relations avec une clé primaire affectée, filtrez la liste par Clé primaire.
A partir de la table des relations de clé, vous pouvez également ouvrir une vue graphique des relations de chaque clé pour vérifier et gérer les relations. Dans le menu déroulant dynamique d'une clé, sélectionnez Ouvrir le diagrammeou sélectionnez Afficher les détails , puis cliquez sur Afficher le diagramme dans le panneau latéral.
Si vous désaffectez une relation, son statut est réinitialisé sur Suggéré. Si vous supprimez une relation, elle est entièrement supprimée. Une relation supprimée peut être suggérée à nouveau lorsque vous réexécutez l'analyse.
Exécution d'une analyse de chevauchement
Exécutez une analyse de chevauchement pour identifier les données qui se chevauchent ou qui sont potentiellement redondantes dans les colonnes d'un ou de plusieurs actifs de données.
Pour exécuter une analyse de relation clé pour un ou plusieurs actifs:
Ouvrez l'actif d'enrichissement des métadonnées.
Dans l'onglet Actifs , sélectionnez les actifs requis.
Sélectionnez Enrichir > Identifier les relations dans la barre d'outils.
Sélectionnez Overlap comme type d'analyse. Vous pouvez éventuellement ajuster le paramètre d'échantillonnage. Par défaut, tous les enregistrements d'un actif de données sont analysés, ce qui peut prendre du temps. Vous pouvez choisir un pourcentage inférieur de données à vérifier. Lorsque vous réduisez la taille de l'échantillon, les enregistrements qui sont inclus dans l'échantillon sont prélevés de manière aléatoire.
Les paramètres d'enrichissement par défaut ne prennent pas effet. Différents paramètres par défaut pour les suggestions et l'affectation automatique s'appliquent à l'analyse de chevauchement :
- Le seuil de suggestion par défaut est de 25 %.
- L'affectation automatique des relations est activée. Le seuil d'affectation par défaut est de 90 %.
Vous pouvez remplacer ces paramètres par défaut pour chaque analyse individuelle.
Vérification des résultats de l'analyse de chevauchement
Affichez les résultats de l'analyse pour déterminer la façon dont les données de colonne sont liées.
Pour vérifier et gérer les relations de chevauchement:
Cliquez sur le lien Afficher les relations de clé dans la zone d'enrichissement. Dans l'onglet Chevauchement , vous pouvez voir les informations suivantes pour chaque relation détectée:
- L'actif de base et l'actif apparié
- Statut de la relation
- Nombre maximal de valeurs distinctes
- Nombre total et pourcentage de valeurs de colonne communes
Développez une entrée pour afficher plus d'informations:
Noms de la colonne de base et de la colonne appariée qui affichent des données se chevauchant
Type de chevauchement pour la base et la colonne appariée:
- Identique
- Les colonnes de base et appariées ont les mêmes valeurs. Les pourcentages pour les deux sont 100% et 100%.
- Sous-ensemble
- Toutes les valeurs de cette colonne se trouvent dans l'autre colonne, mais l'autre colonne contient d'autres valeurs. Le pourcentage de la première colonne est de 100%, mais le pourcentage de l'autre colonne est inférieur à 100%.
- Sur-ensemble
- Toutes les valeurs de l'autre colonne se trouvent dans cette colonne, mais toutes les valeurs de cette colonne ne se trouvent pas dans l'autre colonne. Le pourcentage de l'autre colonne est de 100%, mais le pourcentage de la première colonne est inférieur à 100%.
- Chevaucher
- Certaines des valeurs des colonnes se chevauchent, mais toutes les valeurs de l'une ou l'autre des colonnes ne sont pas communes. Les pourcentages des deux sont inférieurs à 100%.
Nombre total de valeurs distinctes dans la colonne de base, ainsi que le nombre et le pourcentage de valeurs communes à la colonne appariée
Nombre total de valeurs distinctes dans la colonne appariée, ainsi que le nombre et le pourcentage de valeurs communes à la colonne de base
Affectez des relations selon les besoins.
Accès aux détails d'exécution de travail
Vous pouvez accéder aux détails du travail pour l'enrichissement des métadonnées générales à partir du panneau latéral, mais vous devez accéder à l'onglet Travaux du projet pour voir le travail d'analyse des relations. Le travail est de type Key Analysis for Metadata Enrichment Assets. Le nom du travail suit le modèle metadata_enrichment_name (Relationship Detection).
En savoir plus
Rubrique parent : Enrichissement de vos données