La gouvernance des données est le processus de suivi et de contrôle des actifs de données en fonction des métadonnées des actifs. Les catalogues sont des espaces de travail dans lesquels vous fournissez un accès contrôlé aux actifs gouvernés.
- service requis
- IBM Knowledge Catalog
Un catalogue contient des actifs et des collaborateurs. Les collaborateurs sont les personnes qui ajoutent des actifs dans le catalogue et les personnes qui ont besoin de les utiliser. Vous pouvez personnaliser la gouvernance des données pour enrichir et contrôler les actifs de données dans les catalogues.
En savoir plus sur la gouvernance ou initiation aux catalogues et à la gouvernance:
Approches de gouvernance des données
Vous pouvez configurer la gouvernance des données de manière itérative. Vous pouvez commencer par une implémentation simple de la gouvernance des données qui repose sur des artefacts prédéfinis et des fonctions par défaut. Ensuite, à mesure que vos besoins évoluent, vous pouvez personnaliser votre infrastructure de gouvernance des données pour mieux décrire et protéger vos actifs de données.
Pour afficher les outils que vous pouvez utiliser pour gouverner les données, ouvrez la carte des outils et des services et cliquez sur Gouvernance dans la section des tâches.
Implémentation la plus simple de la gouvernance des données
Vous utilisez un catalogue pour partager des actifs dans votre organisation. Un catalogue peut agir en tant que magasin de fonctions en contenant des jeux de données avec des colonnes qui sont utilisées en tant que fonctions (entrées) dans les modèles d'apprentissage automatique. Un administrateur IBM Knowledge Catalog crée le catalogue pour le partage des actifs et ajoute des ingénieurs en traitement de données, des spécialistes des données et des analystes métier en tant que collaborateurs. Les collaborateurs de catalogue peuvent utiliser des actifs de catalogue en les copiant dans des projets et peuvent publier des actifs qu'ils créent dans des projets dans le catalogue.
Les collaborateurs de catalogue peuvent ajouter des actifs au catalogue pour les partager avec d'autres personnes ou rechercher et utiliser des actifs de la manière suivante:
- Les ingénieurs en traitement de données créent des données nettoyées, des données virtualisées et des actifs de données intégrés dans des projets, puis publient les actifs dans le catalogue.
- Les ingénieurs en traitement de données importent des tables ou des fichiers d'une source de données dans le catalogue.
- Les spécialistes des données et les analystes métier trouvent des actifs de données dans des catalogues, puis les ajoutent à des projets pour utiliser les données.
Les actifs de données accumulent des métadonnées dans le temps de la manière suivante:
- Les actifs de données sont profilés, ce qui affecte automatiquement des classes de données prédéfinies qui décrivent le format des données.
- Les collaborateurs de catalogue ajoutent des étiquettes, des termes métier prédéfinis, des classes de données et des classifications, des relations et des évaluations aux actifs.
- Toutes les actions sur les actifs sont automatiquement sauvegardées dans l'historique des actifs.
Voir Création d'un catalogue.
Options de personnalisation pour la gouvernance des données
Vous pouvez ajouter ou mettre à jour n'importe quelle option personnalisée à votre implémentation de gouvernance des données à tout moment. Votre équipe de gouvernance peut établir votre vocabulaire métier, importer et enrichir des données avec votre vocabulaire, analyser la qualité des données, définir des règles pour protéger les données, puis publier les actifs de données dans un catalogue où les consommateurs de données peuvent les trouver. Lorsque vos données changent, vous pouvez réimporter des métadonnées sur les tables ou les fichiers et enrichir vos actifs de données avec votre vocabulaire métier et l'analyse de la qualité des données. Vous pouvez créer des règles de plus en plus précises pour protéger les données au fur et à mesure que vous développez votre vocabulaire métier. Tout au long du cycle de gouvernance des données, vos spécialistes des données et d'autres consommateurs de données peuvent trouver des données de confiance dans des catalogues. L'illustration suivante montre comment la gouvernance des données est un cycle continu d'actualisation des métadonnées pour les actifs de données afin de refléter les changements dans les données et les changements dans votre vocabulaire métier.
Etablissez votre vocabulaire métier
- Votre équipe de gouvernance peut établir un vocabulaire métier qui décrit la signification des données avec des termes métier et le format des données avec des classes de données. Un vocabulaire métier aide vos utilisateurs métier à trouver plus facilement ce qu'ils recherchent en utilisant des termes non techniques.
- Votre équipe peut rapidement établir votre vocabulaire métier en important votre vocabulaire métier existant ou en important des Knowledge Accelerators qui fournissent entre des dizaines et des milliers d'artefacts de gouvernance.
- Votre administrateur IBM Knowledge Catalog peut personnaliser le flux de travaux, l'organisation, les propriétés et les relations des artefacts de gouvernance.
Voir Planification de l'implémentation d'une infrastructure de gouvernance.
Importez et enrichissez des actifs de données avec votre vocabulaire métier
- Les intendants de données peuvent exécuter régulièrement des travaux d'importation et d'enrichissement de métadonnées qui mettent à jour le catalogue avec les modifications apportées aux tables ou aux fichiers de vos sources de données et affectent automatiquement les termes métier et les classes de données appropriés.
- Lorsque votre équipe ajoute des artefacts de gouvernance, les travaux d'enrichissement de métadonnées suggèrent les nouveaux artefacts aux actifs de données nouveaux ou mis à jour.
- Lorsque les intendants de données confirment ou ajustent les affectations de termes métier lors de l'enrichissement des métadonnées, les algorithmes d'apprentissage automatique pour l'affectation de termes deviennent plus précis pour vos données.
- Les intendants de données peuvent configurer l'importation et l'enrichissement des métadonnées pour qu'ils s'exécutent uniquement lorsque des modifications sont détectées.
- Vous pouvez utiliser les capacités d'enrichissement basées sur l'IA pour générer des noms descriptifs d'actifs et de colonnes, pour générer des descriptions significatives d'actifs et de colonnes, et pour attribuer des termes commerciaux.
Voir Planification de l'organisation des actifs de données à partager dans les catalogues.
Analyser la qualité des données
- Les intendants de données peuvent analyser la qualité des données avec les paramètres par défaut lors de l'enrichissement des métadonnées. L'analyse de la qualité des données est appliquée à chaque actif dans son ensemble et aux colonnes des tableaux.
- Les intendants de données peuvent créer des définitions de qualité de données personnalisées et les appliquer dans des règles de qualité de données ou appliquer des règles de qualité de données SQL.
Voir Planification de l'organisation des actifs de données à partager dans les catalogues.
Protégez vos données avec des règles
- Votre équipe de gouvernance peut créer un plan pour les règles de protection des données en écrivant des politiques qui documentent les normes et les instructions de votre organisation pour la protection et la gestion des données. Par exemple, une règle peut décrire une réglementation spécifique et comment une règle de protection des données garantit la conformité à cette réglementation.
- Votre équipe de gouvernance peut créer des règles de protection des données qui définissent comment conserver des informations privées privées. Les règles de protection des données sont automatiquement évaluées pour leur application chaque fois qu'un utilisateur tente d'accéder à un actif de données dans un catalogue gouverné sur la plateforme. Les règles de protection des données peuvent définir comment contrôler l'accès aux données, masquer les valeurs sensibles ou filtrer les lignes des actifs de données.
- Votre équipe peut commencer par des règles de protection des données basées sur des balises personnalisées, des utilisateurs ou des classes de données prédéfinies, des termes métier et des classifications. Lorsque votre équipe de gouvernance ajoute des artefacts de gouvernance, elle peut définir des règles de protection des données en fonction de votre vocabulaire métier.
- Les ingénieurs en traitement de données peuvent appliquer des règles de protection des données sur les données virtualisées.
- Les ingénieurs en traitement de données peuvent masquer définitivement les données dans les actifs de données à l'aide de flux de masquage.
Voir Planification de la protection des données avec des règles.
Initiation à IBM Knowledge Catalog
Les tâches d'initiation à IBM Knowledge Catalog dépendent de votre objectif. Les actions que vous pouvez effectuer sont définies par vos rôles d'accès au service Cloud Pak for Data . Certaines actions ont également des exigences de rôle d'espace de travail, comme être un collaborateur dans un catalogue ou une catégorie.
Pour vérifier vos rôles d'accès au service, voir Détermination de votre compte IBM Cloud et de vos rôles d'accès au service. Pour comprendre vos rôles IBM Knowledge Catalog , voir Rôles utilisateur et droits.
Le tableau suivant présente les objectifs communs, les rôles d'accès au service Cloud Pak for Data requis et des liens vers des informations pour vous aider à démarrer.
Objectif | Rôle d'accès au service Cloud Pak for Data requis | Plus d'information |
---|---|---|
Configuration ou administration d' IBM Knowledge Catalog | Responsable | Planification de l'implémentation de la gouvernance des données Configuration d' IBM Knowledge Catalog Gestion d' IBM Knowledge Catalog |
Rechercher des actifs ou des fonctions dans un catalogue | N'importe quel rôle | Recherche d'actifs dans un catalogue Recherche d'actifs sur la plateforme Ajout d'un actif de catalogue à un projet |
Organiser des données | CloudPak Data Steward ou CloudPak Data Engineer |
Organisation des données Planification de l'organisation des données |
Gérer la qualité des données | CloudPak Data Steward ou CloudPak Data Engineer |
Gestion de la qualité des données |
Créer des artefacts de gouvernance | CloudPak Data Steward ou CloudPak Data Engineer |
Gestion des artefacts de gouvernance Importation Knowledge Accelerators Planification de l'implémentation d'une infrastructure de gouvernance |
Créer des règles de protection des données | CloudPak Data Steward ou CloudPak Data Engineer |
Règles de protection des données Planification de la protection des données à l'aide de règles |
Exécutez les API IBM Knowledge Catalog | Même rôle pour l'exécution de la tâche dans l'interface utilisateur. | - IBM Knowledge Catalog API |
Génération de rapports sur IBM Knowledge Catalog | Administrateur de rapports | Configuration de la génération de rapports |