Planification de l'organisation des données dans les catalogues

Dernière mise à jour : 23 avr. 2025

Le processus de curation inclut la création d'actifs de données, l'affectation d'artefacts de gouvernance et d'autres métadonnées aux actifs de données, la publication des actifs de données dans un catalogue, puis la mise à jour des métadonnées d'actif à mesure que les données sous-jacentes ou votre vocabulaire métier changent. Une fois que vos intendants de données ont ajouté des actifs de données enrichis et de haute qualité à des catalogues, les consommateurs de données peuvent trouver et utiliser ces actifs de données.

Bien que vous puissiez organiser les actifs de données individuellement, ce processus n'est pas évolutif. Vous pouvez automatiser de nombreuses tâches de curation à l'aide des outils d' Metadata import et d'enrichissement de métadonnées, avec lesquels vous pouvez découvrir, créer, enrichir et publier des ensembles d'actifs de données.

Pour automatiser autant que possible la curation des données, effectuez les tâches suivantes pour configurer un projet de curation, ajouter des actifs de données organisés à un catalogue et mettre à jour les actifs de données afin de maintenir les métadonnées à jour:

Tâche	Obligatoire ?	Fréquence
Configurer un projet	Oui	Unique
Ajout de connexions à des sources de données	Oui	Unique
Importation de métadonnées pour créer des actifs de données	Oui	Récurrent
Enrichir les actifs de données avec des métadonnées et d'autres informations	Oui	Récurrent
Résoudre les données d'entité pour créer une vue à 360 degrés de vos données	Non	Récurrent
Personnalisation de l'analyse de la qualité des données	Non	Récurrent
Publier des actifs de données dans des catalogues	Oui	Récurrent
Importation de la lignée pour les actifs de données	Non	Récurrent

Le cycle d'organisation des données inclut les étapes répertoriées dans le tableau.

Lorsque vous créez des actifs d'importation et d'enrichissement de métadonnées, vous pouvez les planifier pour qu'ils s'exécutent automatiquement ou à la demande. Vous pouvez configurer des planifications de travaux dans l'interface utilisateur ou à l'aide d'API. Par exemple, vous pouvez planifier une importation de métadonnées pour une heure et une date spécifiques. Vous pouvez ensuite planifier l'enrichissement des métadonnées pour les mêmes actifs à exécuter une fois l'importation des métadonnées terminée. Une fois l'enrichissement des métadonnées terminé, examinez les résultats, effectuez les ajustements nécessaires, puis publiez les mises à jour des actifs de données dans le catalogue.

Configuration d'un projet pour la curation

Un projet est un espace de travail collaboratif dans lequel les personnes travaillent avec des données pour atteindre un objectif partagé.

Pour améliorer la cohérence, vous pouvez créer des conventions pour les projets, par exemple:

Noms de projet: Identifiez les projets de manière cohérente, par exemple, par objectif, par plage de dates ou par équipe.
Exigences du projet: Décrivez les exigences et les tâches dans les systèmes externes du projet et établissez un lien avec ces exigences et ces tâches.
Noms de connexion: Identifiez les connexions de manière cohérente, par exemple, par source de données, nom de table ou objectif.

Un projet de curation des données contient généralement les types d'éléments suivants qui sont explicitement ajoutés par les intendants de données ou créés à la suite d'un processus:

Actifs de connexion pour les sources de données qui contiennent les données à organiser
Actifs de données connectés créés par l'importation de métadonnées
Metadata import -Actifs
Actifs d'enrichissement de métadonnées
Définition de la qualité des données et actifs de règle
Actifs de flux DataStage créés en exécutant des règles de qualité de données
Actifs de données contenant des tables de sortie de règle de qualité de données
Actifs de données contenant des tables de distribution de fréquences créées par l'enrichissement de métadonnées
Travaux créés par l'exécution d'actifs

En savoir plus sur la création de projets

Ajouter des connexions à des sources de données

Avant que vos intendants de données puissent importer des métadonnées pour créer des actifs de données connectés, ils ont besoin des actifs de connexion pour les sources de données appropriées. Les sources de données peuvent inclure des bases de données, telles que Db2, ou des systèmes de fichiers, tels que IBM Cloud Object Storage

En règle générale, les organisations ajoutent des connexions au Platform assets catalog afin que tous les utilisateurs puissent les trouver et les utiliser. Par exemple, vos ingénieurs en traitement de données peuvent créer les actifs de connexion dans le Platform assets catalog, puis tous les utilisateurs peuvent facilement ajouter ces connexions à leurs projets. Vous pouvez également créer des connexions dans un projet.

Lorsque vous créez des connexions, vous devez décider comment gérer les données d'identification de connexion. Par défaut, les données d'identification de connexion sont marquées comme partagées, ce qui permet à tous les utilisateurs d'utiliser les mêmes données d'identification pour accéder aux données. Si vous souhaitez que chaque utilisateur entre ses données d'identification personnelles, désactivez les données d'identification partagées lorsque vous créez des connexions. Toutefois, si vos connexions requièrent des données d'identification personnelles, vous devez vous assurer que vos intendants de données disposent de données d'identification pour toutes les connexions dont ils ont besoin pour la curation.

Cloud Pak for Data prend en charge de nombreuses connexions, mais elles ne sont pas toutes prises en charge pour l'importation de métadonnées, l'enrichissement de métadonnées et l'analyse de la qualité des données.

En savoir plus sur l'ajout de connexions

Importer des métadonnées pour créer des actifs de données

L' Metadata import détecte toutes les tables ou tous les fichiers accessibles à partir d'une connexion spécifiée à une source de données. Vous pouvez choisir de créer des actifs de données connectés pour l'ensemble ou une sélection de tables ou de fichiers. Le processus d'importation de métadonnées crée également un actif d'importation de métadonnées que vous pouvez réexécuter ou spécifier en tant qu'entrée pour l'enrichissement de métadonnées.

Généralement, les organisations créent plusieurs actifs d'importation de métadonnées pour une seule source de données. Chaque importation de métadonnées contient des tables ou des fichiers dont la fréquence de modification de la structure, du schéma ou des lignes de données est similaire. Vous pouvez ensuite exécuter chaque importation de métadonnées selon un planning différent. Par exemple, vous pouvez créer des importations de métadonnées avec les caractéristiques suivantes:

Importation de métadonnées pour les tables dont les mises à jour sont fréquentes et que vous planifiez d'exécuter toutes les semaines.
Une importation de métadonnées pour les tables dont les mises à jour sont peu fréquentes et que vous planifiez pour une exécution mensuelle.
Une importation de métadonnées pour les tables avec des mises à jour rares que vous exécutez manuellement si nécessaire.

Réexécutez l'importation de métadonnées pour détecter les types de modifications suivants dans la source de données:

Actifs ajoutés ou supprimés
Schémas de table modifiés
Mises à jour des métadonnées d'actif, telles que les changements de nom ou les descriptions mises à jour

Après avoir réexécuté l'importation de métadonnées, réexécutez l'enrichissement de métadonnées.

En savoir plus sur l'importation de métadonnées

Enrichir les actifs de données avec des métadonnées et d'autres informations

L'enrichissement de métadonnées ajoute des informations à vos actifs de données connectés. Vous pouvez facilement exécuter l'enrichissement de métadonnées sur toutes les tables ou tous les fichiers que vous avez créés avec l'importation de métadonnées en définissant l'importation de métadonnées comme portée de données. Le processus d'enrichissement de métadonnées crée également un travail d'enrichissement de métadonnées que vous pouvez réexécuter.

Généralement, les organisations créent un enrichissement de métadonnées pour chaque importation de métadonnées. Vous pouvez ensuite facilement synchroniser les plannings d'importation de métadonnées et d'enrichissement de métadonnées. Toutefois, vous pouvez créer des enrichissements de métadonnées pour un actif de données connecté unique, tel qu'une table virtualisée.

Lorsque vous exécutez l'enrichissement de métadonnées sur des actifs de données, les informations sont ajoutées en fonction des options d'enrichissement sélectionnées:

Profilage uniquement : Ajoute des classes de données et des statistiques, et propose des clés primaires.
Expansion des métadonnées : Génère des noms d'affichage et des descriptions.
Analyse et profilage de la qualité: ajoute des scores de qualité, des classes de données et des statistiques.
Attribution de termes : Attribue des termes et des classifications sur la base des méthodes sélectionnées. L'affectation des termes basée sur les relations avec les classes de données nécessite un profilage. Pour un travail de fin d'études basé sur l'IA, les métadonnées doivent également être développées. Dans tous les cas, les termes peuvent être attribués par un algorithme d'apprentissage automatique et de correspondance des noms.
Création de relations : Identifie les clés primaires et étrangères et suggère des relations entre les actifs.
Contrôle de la qualité des données : Vérifie si la qualité des données est conforme aux accords de niveau de service définis en matière de qualité des données et signale les violations. Un flux de travail de remédiation peut être déclenché.

Vous pouvez équilibrer la précision et la vitesse en définissant la taille d'échantillonnage des données. Plus la taille d'échantillonnage des données est importante, plus les affectations de classe de données et de terme métier et l'analyse de la qualité des données sont précises, mais plus le travail d'enrichissement des métadonnées est long.

Bien que vous puissiez spécifier d'affecter automatiquement des classes de données et des termes métier, vous devez passer en revue les résultats. Les affectations précises des classes de données et des termes métier sont essentielles. Sinon, les informations sensibles risquent de ne pas être masquées ou protégées par des règles de protection des données. Plus vous exécutez l'enrichissement de métadonnées et ajustez les affectations de classe de données et de terme métier, plus l'algorithme d'affectation automatique devient précis.

Relancer l'enrichissement des métadonnées avec les objectifs appropriés dans ces circonstances :

Après avoir réexécuté l'importation des métadonnées. En fonction du nombre de modifications apportées aux données que vous attendez, réexécutez l'enrichissement de métadonnées sur l'ensemble de la portée de données de l'importation, ou uniquement sur les données nouvelles ou modifiées, par exemple, pour extraire de nouvelles tables ou colonnes. Les modifications apportées aux valeurs de données dans une colonne peuvent affecter les scores de qualité de données ou les affectations de classe de données et de terme métier.
Après les modifications apportées aux classes de données et aux termes métier disponibles. Les modifications apportées aux classes de données et aux termes métier peuvent affecter leurs affectations aux colonnes.

Les travaux d'enrichissement de métadonnées peuvent prendre beaucoup de temps, en fonction de la taille de vos données. Ils consomment également des ressources de calcul qui sont facturées à votre compte.

En savoir plus sur l'enrichissement des métadonnées

Résoudre les données d'entité pour créer une vue à 360 degrés de vos données

Pour vous assurer que vos utilisateurs et vos systèmes disposent d'une vue complète, fiable et unifiée de vos données client, utilisez IBM Match 360 pour faire correspondre et consolider des données provenant de sources disparates et établir une vue à 360 degrés de vos données, appelées données maître.

Définissez le modèle de données pour vos données maître, puis chargez des actifs de données à partir de votre entreprise et mappez-les à votre modèle. Ensuite, commencez à configurer le système pour répondre aux exigences uniques de votre organisation. Configurez l'algorithme de correspondance et exécutez-le pour créer des entités de données maître. Passez en revue les statistiques et les graphiques fournis pour évaluer les résultats de la correspondance. En fonction de vos résultats, vous pouvez optimiser davantage l'algorithme et améliorer vos résultats de mise en correspondance en effectuant des révisions de paires ou en modifiant les pondérations et les seuils de mise en correspondance.

Une fois que vous avez mis au point votre algorithme de correspondance, les utilisateurs métier peuvent rechercher et explorer vos données maître pour obtenir des informations clés. Les intendants de données peuvent éditer, gérer et corriger les données, puis les exporter en tant que données connectées ou au format CSV pour les utiliser ailleurs.

En savoir plus sur la résolution des données d'entité

Personnaliser l'analyse de la qualité des données

Pour personnaliser votre analyse de la qualité des données, vous créez et exécutez des règles de qualité des données. Chaque règle de qualité de données s'applique aux actifs de données d'une source de données unique ou à un actif de données unique d'un fichier. Vous exécutez vos règles de qualité des données comme DataStage flux, ce qui nécessite le DataStage service. Avec DataStage, vous pouvez exécuter des règles de qualité des données dans les régions prises en charge. Avec DataStage as a Service Anywhere, vous pouvez exécuter des règles de qualité des données en dehors d'IBM Cloud en utilisant des moteurs distants. Pour plus d'informations sur la configuration des moteurs distants, consultez la documentationDataStage as a Service Anywhere.

Le format et la manière dont vous définissez les conditions de règle de qualité de données dépendent du type de résultats que vous souhaitez recevoir.

Résultats	Format	Méthode
Renvoie le degré de conformité des colonnes avec les conditions de règle.	Définitions de qualité des données	Vous créez des actifs de définition de qualité de données que vous référencez dans une ou plusieurs règles de qualité de données. Vous spécifiez la logique de règle en organisant les éléments de bloc dans un canevas ou en entrant une expression dans un éditeur de format libre.
Renvoie les colonnes qui échouent aux conditions de règle.	Instructions SQL	Vous entrez des instructions SQL dans chaque règle de qualité de données.

Si vous créez des règles de qualité de données contenant des définitions de qualité de données, vous disposez des options suivantes:

Réutilisez la même définition de qualité de données plusieurs fois dans une règle de qualité de données.
Incluez plusieurs définitions de qualité de données dans une règle de qualité de données.
Publier des définitions de qualité de données dans un catalogue et les réutiliser dans plusieurs projets.
Créez des règles simples qui lient directement les données et créez éventuellement des jointures pour les liaisons.
Créez des règles complexes dans lesquelles les données sont prétraitées dans des flux DataStage et la sortie peut être acheminée vers des liens de sortie DataStage .
Créez des jointures pour les liaisons afin d'utiliser les données de plusieurs tables dans la table de sortie.
Créez des ensembles de paramètres dans un projet pour gérer les valeurs littérales et les colonnes que vous liez aux variables de règle. Vous pouvez également publier l'ensemble de paramètres dans un catalogue et le réutiliser dans plusieurs projets.
Définissez le nombre maximal d'enregistrements à évaluer et la méthode d'échantillonnage.

Vous pouvez choisir d'envoyer la sortie de la règle de qualité de données à une base de données externe afin de conserver un enregistrement détaillé des résultats de la règle. Par exemple, vous pouvez exécuter des rapports ou envoyer les informations à une équipe de gestion des données pour la résolution de la qualité.

En savoir plus sur l'analyse de la qualité des données

Gestion de la qualité des données

Publier des actifs de données dans un catalogue

Vous pouvez publier plusieurs actifs de données enrichis dans un catalogue en une seule opération à partir de l'actif d'enrichissement de métadonnées ou de l'onglet Actifs du projet.

Les principales différences entre la publication à partir de l'onglet Actifs et à partir d'un actif d'enrichissement de métadonnées sont liées au traitement des actifs en double. Le tableau suivant compare les choix que vous avez et leurs effets.

Méthode de publication	Publication en bloc?	Options de traitement des doublons	Affectations de termes métier
Onglet Actifs	Oui, vous pouvez sélectionner plusieurs actifs à publier ensemble.	Mettre à jour les actifs d'origine Remplacer les actifs d'origine Autoriser les doublons (si les paramètres de catalogue incluent cette option) Conserver les actifs d'origine et rejeter les doublons	Les affectations de terme métier d'origine peuvent être supprimées.
Actif d'enrichissement de métadonnées	Oui, vous pouvez sélectionner plusieurs actifs à publier ensemble.	Mettre à jour les actifs d'origine	Les termes métier du nouvel actif sont ajoutés à l'actif d'origine. Aucune affectation de terme métier d'origine n'est supprimée.

En savoir plus sur la publication dans un catalogue

Lignage d'importation pour les actifs de données dans le catalogue

La lignée est l'information sur l'origine de vos données, la façon dont elles changent et où elles se déplacent au fil du temps. Vous pouvez importer des informations de lignage pour les ressources de données que vous avez importées, enrichies et publiées dans un catalogue. Le lignage des données doit être activé. Pour importer des lignages, vous créez une importation de métadonnées avec l'option Importer des métadonnées de lignage. Le service de lignage analyse la source de données cible et le flux de données. Ces métadonnées de lignage sont importées avec les données et, le cas échéant, les scripts de transformation.

En général, les organisations réexécutent l'importation de métadonnées pour capturer les informations de lignage après avoir exécuté l'importation et l'enrichissement des métadonnées et publié les ressources de données mises à jour.