Le processus de curation inclut la création d'actifs de données, l'affectation d'artefacts de gouvernance et d'autres métadonnées aux actifs de données, la publication des actifs de données dans un catalogue, puis la mise à jour des métadonnées d'actif à mesure que les données sous-jacentes ou votre vocabulaire métier changent. Une fois que vos intendants de données ont ajouté des actifs de données enrichis et de haute qualité à des catalogues, les consommateurs de données peuvent trouver et utiliser ces actifs de données.
Bien que vous puissiez organiser les actifs de données individuellement, ce processus n'est pas évolutif. Vous pouvez automatiser de nombreuses tâches de curation à l'aide des outils d' Metadata import et d'enrichissement de métadonnées, avec lesquels vous pouvez découvrir, créer, enrichir et publier des ensembles d'actifs de données.
Pour automatiser autant que possible la curation des données, effectuez les tâches suivantes pour configurer un projet de curation, ajouter des actifs de données organisés à un catalogue et mettre à jour les actifs de données afin de maintenir les métadonnées à jour:
Tâche | Obligatoire ? | Fréquence |
---|---|---|
Configurer un projet | Oui | Unique |
Ajout de connexions à des sources de données | Oui | Unique |
Importation de métadonnées pour créer des actifs de données | Oui | Récurrente |
Enrichir les actifs de données avec des métadonnées et d'autres informations | Oui | Récurrente |
Résoudre les données d'entité pour créer une vue à 360 degrés de vos données | Non | Récurrente |
Personnalisation de l'analyse de la qualité des données | Non | Récurrente |
Publier des actifs de données dans des catalogues | Oui | Récurrente |
Lorsque vous créez des actifs d'importation et d'enrichissement de métadonnées, vous pouvez les planifier pour qu'ils s'exécutent automatiquement ou à la demande. Vous pouvez configurer des planifications de travaux dans l'interface utilisateur ou à l'aide d'API. Par exemple, vous pouvez planifier une importation de métadonnées pour une heure et une date spécifiques. Vous pouvez ensuite planifier l'enrichissement des métadonnées pour les mêmes actifs à exécuter une fois l'importation des métadonnées terminée. Une fois l'enrichissement des métadonnées terminé, examinez les résultats, effectuez les ajustements nécessaires, puis publiez les mises à jour des actifs de données dans le catalogue.
Configuration d'un projet pour la curation
Un projet est un espace de travail collaboratif dans lequel les personnes travaillent avec des données pour atteindre un objectif partagé.
Pour améliorer la cohérence, vous pouvez créer des conventions pour les projets, par exemple:
- Noms de projet: Identifiez les projets de manière cohérente, par exemple, par objectif, par plage de dates ou par équipe.
- Exigences du projet: Décrivez les exigences et les tâches dans les systèmes externes du projet et établissez un lien avec ces exigences et ces tâches.
- Noms de connexion: Identifiez les connexions de manière cohérente, par exemple, par source de données, nom de table ou objectif.
Un projet de curation des données contient généralement les types d'éléments suivants qui sont explicitement ajoutés par les intendants de données ou créés à la suite d'un processus:
- Actifs de connexion pour les sources de données qui contiennent les données à organiser
- Actifs de données connectés créés par l'importation de métadonnées
- Metadata import -Actifs
- Actifs d'enrichissement de métadonnées
- Définition de la qualité des données et actifs de règle
- Actifs de flux DataStage créés en exécutant des règles de qualité de données
- Actifs de données contenant des tables de sortie de règle de qualité de données
- Actifs de données contenant des tables de distribution de fréquences créées par l'enrichissement de métadonnées
- Travaux créés par l'exécution d'actifs
En savoir plus sur la création de projets
Ajouter des connexions à des sources de données
Avant que vos intendants de données puissent importer des métadonnées pour créer des actifs de données connectés, ils ont besoin des actifs de connexion pour les sources de données appropriées. Les sources de données peuvent inclure des bases de données, telles que Db2, ou des systèmes de fichiers, tels que IBM Cloud Object Storage
En règle générale, les organisations ajoutent des connexions au Platform assets catalog afin que tous les utilisateurs puissent les trouver et les utiliser. Par exemple, vos ingénieurs en traitement de données peuvent créer les actifs de connexion dans le Platform assets catalog, puis tous les utilisateurs peuvent facilement ajouter ces connexions à leurs projets. Vous pouvez également créer des connexions dans un projet.
Lorsque vous créez des connexions, vous devez décider comment gérer les données d'identification de connexion. Par défaut, les données d'identification de connexion sont marquées comme partagées, ce qui permet à tous les utilisateurs d'utiliser les mêmes données d'identification pour accéder aux données. Si vous souhaitez que chaque utilisateur entre ses données d'identification personnelles, désactivez les données d'identification partagées lorsque vous créez des connexions. Toutefois, si vos connexions requièrent des données d'identification personnelles, vous devez vous assurer que vos intendants de données disposent de données d'identification pour toutes les connexions dont ils ont besoin pour la curation.
Cloud Pak for Data prend en charge de nombreuses connexions, mais elles ne sont pas toutes prises en charge pour l'importation de métadonnées, l'enrichissement de métadonnées et l'analyse de la qualité des données.
En savoir plus sur l'ajout de connexions
Importer des métadonnées pour créer des actifs de données
L' Metadata import détecte toutes les tables ou tous les fichiers accessibles à partir d'une connexion spécifiée à une source de données. Vous pouvez choisir de créer des actifs de données connectés pour l'ensemble ou une sélection de tables ou de fichiers. Le processus d'importation de métadonnées crée également un actif d'importation de métadonnées que vous pouvez réexécuter ou spécifier en tant qu'entrée pour l'enrichissement de métadonnées.
Généralement, les organisations créent plusieurs actifs d'importation de métadonnées pour une seule source de données. Chaque importation de métadonnées contient des tables ou des fichiers dont la fréquence de modification de la structure, du schéma ou des lignes de données est similaire. Vous pouvez ensuite exécuter chaque importation de métadonnées selon un planning différent. Par exemple, vous pouvez créer des importations de métadonnées avec les caractéristiques suivantes:
- Importation de métadonnées pour les tables dont les mises à jour sont fréquentes et que vous planifiez d'exécuter toutes les semaines.
- Une importation de metdata pour les tables avec des mises à jour peu fréquentes que vous planifiez pour une exécution mensuelle.
- Une importation de métadonnées pour les tables avec des mises à jour rares que vous exécutez manuellement si nécessaire.
Réexécutez l'importation de métadonnées pour détecter les types de modifications suivants dans la source de données:
- Actifs ajoutés ou supprimés
- Schémas de table modifiés
- Mises à jour des métadonnées d'actif, telles que les changements de nom ou les descriptions mises à jour
Après avoir réexécuté l'importation de métadonnées, réexécutez l'enrichissement de métadonnées.
En savoir plus sur l'importation de métadonnées
Enrichir les actifs de données avec des métadonnées et d'autres informations
L'enrichissement de métadonnées ajoute des informations à vos actifs de données connectés. Vous pouvez facilement exécuter l'enrichissement de métadonnées sur toutes les tables ou tous les fichiers que vous avez créés avec l'importation de métadonnées en définissant l'importation de métadonnées comme portée de données. Le processus d'enrichissement de métadonnées crée également un travail d'enrichissement de métadonnées que vous pouvez réexécuter.
Généralement, les organisations créent un enrichissement de métadonnées pour chaque importation de métadonnées. Vous pouvez ensuite facilement synchroniser les plannings d'importation de métadonnées et d'enrichissement de métadonnées. Toutefois, vous pouvez créer des enrichissements de métadonnées pour un actif de données connecté unique, tel qu'une table virtualisée.
Lorsque vous exécutez l'enrichissement de métadonnées sur des actifs de données, les informations sont ajoutées en fonction des options d'enrichissement sélectionnées:
- Profilage uniquement : Ajoute des classes de données et des statistiques, et propose des clés primaires.
- Expansion des métadonnées : Génère des noms d'affichage et des descriptions.
- Analyse et profilage de la qualité: ajoute des scores de qualité, des classes de données et des statistiques.
- Attribution de termes : Attribue des termes et des classifications sur la base des méthodes sélectionnées. L'affectation des termes basée sur les relations avec les classes de données nécessite un profilage. Pour un travail de fin d'études basé sur l'IA, les métadonnées doivent également être développées. Dans tous les cas, les termes peuvent être attribués par un algorithme d'apprentissage automatique et de correspondance des noms.
- Création de relations : Identifie les clés primaires et étrangères et suggère des relations entre les actifs.
- Contrôle de la qualité des données : Vérifie si la qualité des données est conforme aux accords de niveau de service définis en matière de qualité des données et signale les violations. Un flux de travail de remédiation peut être déclenché.
Vous pouvez équilibrer la précision et la vitesse en définissant la taille d'échantillonnage des données. Plus la taille d'échantillonnage des données est importante, plus les affectations de classe de données et de terme métier et l'analyse de la qualité des données sont précises, mais plus le travail d'enrichissement des métadonnées est long.
Bien que vous puissiez spécifier d'affecter automatiquement des classes de données et des termes métier, vous devez passer en revue les résultats. Les affectations précises des classes de données et des termes métier sont essentielles. Sinon, les informations sensibles risquent de ne pas être masquées ou protégées par des règles de protection des données. Plus vous exécutez l'enrichissement de métadonnées et ajustez les affectations de classe de données et de terme métier, plus l'algorithme d'affectation automatique devient précis.
Réexécutez l'enrichissement des métadonnées et l'analyse de la qualité des données standard dans les cas suivants:
- Après avoir réexécuté l'importation des métadonnées. En fonction du nombre de modifications apportées aux données que vous attendez, réexécutez l'enrichissement de métadonnées sur l'ensemble de la portée de données de l'importation, ou uniquement sur les données nouvelles ou modifiées, par exemple, pour extraire de nouvelles tables ou colonnes. Les modifications apportées aux valeurs de données dans une colonne peuvent affecter les scores de qualité de données ou les affectations de classe de données et de terme métier.
- Après les modifications apportées aux classes de données et aux termes métier disponibles. Les modifications apportées aux classes de données et aux termes métier peuvent affecter leurs affectations aux colonnes.
Les travaux d'enrichissement de métadonnées peuvent prendre beaucoup de temps, en fonction de la taille de vos données. Ils consomment également des ressources de calcul qui sont facturées à votre compte.
En savoir plus sur l'enrichissement des métadonnées
Résoudre les données d'entité pour créer une vue à 360 degrés de vos données
Pour vous assurer que vos utilisateurs et vos systèmes disposent d'une vue complète, fiable et unifiée de vos données client, utilisez IBM Match 360 pour faire correspondre et consolider des données provenant de sources disparates et établir une vue à 360 degrés de vos données, appelées données maître.
Définissez le modèle de données pour vos données maître, puis chargez des actifs de données à partir de votre entreprise et mappez-les à votre modèle. Ensuite, commencez à configurer le système pour répondre aux exigences uniques de votre organisation. Configurez l'algorithme de correspondance et exécutez-le pour créer des entités de données maître. Passez en revue les statistiques et les graphiques fournis pour évaluer les résultats de la correspondance. En fonction de vos résultats, vous pouvez optimiser davantage l'algorithme et améliorer vos résultats de mise en correspondance en effectuant des révisions de paires ou en modifiant les pondérations et les seuils de mise en correspondance.
Une fois que vous avez mis au point votre algorithme de correspondance, les utilisateurs métier peuvent rechercher et explorer vos données maître pour obtenir des informations clés. Les intendants de données peuvent éditer, gérer et corriger les données, puis les exporter en tant que données connectées ou au format CSV pour les utiliser ailleurs.
En savoir plus sur la résolution des données d'entité
- En savoir plus sur l'utilisation des données maître
- Définition de votre modèle de données et Chargement d'actifs de données
- Configurer et optimiser votre algorithme de correspondance
- Entraînez votre algorithme de correspondance en examinant les paires d'enregistrements
- Explorez, gérez et exportez vos données de confiance
- Résolution des correspondances potentielles pour améliorer la qualité des données
Personnaliser l'analyse de la qualité des données
Pour personnaliser votre analyse de la qualité des données, vous créez et exécutez des règles de qualité des données. Chaque règle de qualité de données s'applique aux actifs de données d'une source de données unique ou à un actif de données unique d'un fichier. Vous exécutez vos règles de qualité des données comme DataStage flux, ce qui nécessite le DataStage service. Avec DataStage, vous pouvez exécuter des règles de qualité des données dans les régions prises en charge. Avec DataStage as a Service Anywhere, vous pouvez exécuter des règles de qualité des données en dehors d'IBM Cloud en utilisant des moteurs distants. Pour plus d'informations sur la configuration des moteurs distants, consultez la documentationDataStage as a Service Anywhere.
Le format et la manière dont vous définissez les conditions de règle de qualité de données dépendent du type de résultats que vous souhaitez recevoir.
Résultats | Format | Méthode |
---|---|---|
Renvoie le degré de conformité des colonnes avec les conditions de règle. | Définitions de qualité des données | Vous créez des actifs de définition de qualité de données que vous référencez dans une ou plusieurs règles de qualité de données. Vous spécifiez la logique de règle en organisant les éléments de bloc dans un canevas ou en entrant une expression dans un éditeur de format libre. |
Renvoie les colonnes qui échouent aux conditions de règle. | Instructions SQL | Vous entrez des instructions SQL dans chaque règle de qualité de données. |
Si vous créez des règles de qualité de données contenant des définitions de qualité de données, vous disposez des options suivantes:
- Réutilisez la même définition de qualité de données plusieurs fois dans une règle de qualité de données.
- Incluez plusieurs définitions de qualité de données dans une règle de qualité de données.
- Publier des définitions de qualité de données dans un catalogue et les réutiliser dans plusieurs projets.
- Créez des règles simples qui lient directement les données et créez éventuellement des jointures pour les liaisons.
- Créez des règles complexes dans lesquelles les données sont prétraitées dans des flux DataStage et la sortie peut être acheminée vers des liens de sortie DataStage .
- Créez des jointures pour les liaisons afin d'utiliser les données de plusieurs tables dans la table de sortie.
- Créez des ensembles de paramètres dans un projet pour gérer les valeurs littérales et les colonnes que vous liez aux variables de règle. Vous pouvez également publier l'ensemble de paramètres dans un catalogue et le réutiliser dans plusieurs projets.
- Définissez le nombre maximal d'enregistrements à évaluer et la méthode d'échantillonnage.
Vous pouvez choisir d'envoyer la sortie de la règle de qualité de données à une base de données externe afin de conserver un enregistrement détaillé des résultats de la règle. Par exemple, vous pouvez exécuter des rapports ou envoyer les informations à une équipe de gestion des données pour la résolution de la qualité.
En savoir plus sur l'analyse de la qualité des données
Publier des actifs de données dans un catalogue
Vous pouvez publier plusieurs actifs de données enrichis dans un catalogue en une seule opération à partir de l'actif d'enrichissement de métadonnées ou de l'onglet Actifs du projet.
Les principales différences entre la publication à partir de l'onglet Actifs et à partir d'un actif d'enrichissement de métadonnées sont liées au traitement des actifs en double. Le tableau suivant compare les choix que vous avez et leurs effets.
Méthode de publication | Publication en bloc? | Options de traitement des doublons | Affectations de termes métier |
---|---|---|---|
Onglet Actifs | Oui, vous pouvez sélectionner plusieurs actifs à publier ensemble. | Mettre à jour les actifs d'origine Remplacer les actifs d'origine Autoriser les doublons (si les paramètres de catalogue incluent cette option) Conserver les actifs d'origine et rejeter les doublons |
Les affectations de terme métier d'origine peuvent être supprimées. |
Actif d'enrichissement de métadonnées | Oui, vous pouvez sélectionner plusieurs actifs à publier ensemble. | Mettre à jour les actifs d'origine | Les termes métier du nouvel actif sont ajoutés à l'actif d'origine. Aucune affectation de terme métier d'origine n'est supprimée. |
En savoir plus sur la publication dans un catalogue
Lignage d'importation pour les actifs de données dans le catalogue
La lignée est l'information sur l'origine de vos données, la façon dont elles changent et où elles se déplacent au fil du temps. Vous pouvez importer des informations de lignage pour les ressources de données que vous avez importées, enrichies et publiées dans un catalogue. Le lignage des données doit être activé. Pour importer des lignages, vous créez une importation de métadonnées avec l'option Importer des métadonnées de lignage. Le service de lignage analyse la source de données cible et le flux de données. Ces métadonnées de lignage sont importées avec les données et, le cas échéant, les scripts de transformation.
En général, les organisations réexécutent l'importation de métadonnées pour capturer les informations de lignage après avoir exécuté l'importation et l'enrichissement des métadonnées et publié les ressources de données mises à jour.
En savoir plus sur l'importation de lignées
Tâches de planification précédentes
Tâches de planification suivantes
Rubrique parent: Planification de l'implémentation de la gouvernance des données