La gouvernance des données est le processus de suivi et de contrôle des actifs de données en fonction des métadonnées des actifs. Les catalogues sont des espaces de travail dans lesquels vous fournissez un accès contrôlé aux actifs gouvernés.
service requis
IBM Knowledge Catalog
Un catalogue contient des actifs et des collaborateurs. Les collaborateurs sont les personnes qui ajoutent des actifs dans le catalogue et les personnes qui ont besoin de les utiliser. Vous pouvez personnaliser la gouvernance des données pour enrichir et contrôler les actifs de données dans les catalogues.
En savoir plus sur la gouvernance ou initiation aux catalogues et à la gouvernance:
Vous pouvez configurer la gouvernance des données de manière itérative. Vous pouvez commencer par une implémentation simple de la gouvernance des données qui repose sur des artefacts prédéfinis et des fonctions par défaut. Ensuite, à mesure que vos besoins évoluent, vous pouvez personnaliser votre infrastructure de gouvernance des données pour mieux décrire et protéger vos actifs de données.
Pour afficher les outils que vous pouvez utiliser pour gouverner les données, ouvrez la carte des outils et des services et cliquez sur Gouvernance dans la section des tâches.
Implémentation la plus simple de la gouvernance des données
Copy link to section
Vous utilisez un catalogue pour partager des actifs dans votre organisation. Un catalogue peut agir en tant que magasin de fonctions en contenant des jeux de données avec des colonnes qui sont utilisées en tant que fonctions (entrées) dans les modèles d'apprentissage automatique. Un administrateur IBM Knowledge Catalog crée le catalogue pour le partage des actifs et ajoute des ingénieurs en traitement de données, des spécialistes des données et des analystes métier en tant que collaborateurs. Les collaborateurs de catalogue peuvent utiliser des actifs de catalogue en les copiant dans des projets et peuvent publier des actifs qu'ils créent dans des projets dans le catalogue.
Les collaborateurs de catalogue peuvent ajouter des actifs au catalogue pour les partager avec d'autres personnes ou rechercher et utiliser des actifs de la manière suivante:
Les ingénieurs en traitement de données créent des données nettoyées, des données virtualisées et des actifs de données intégrés dans des projets, puis publient les actifs dans le catalogue.
Les ingénieurs en traitement de données importent des tables ou des fichiers d'une source de données dans le catalogue.
Les spécialistes des données et les analystes métier trouvent des actifs de données dans des catalogues, puis les ajoutent à des projets pour utiliser les données.
Les actifs de données accumulent des métadonnées dans le temps de la manière suivante:
Les actifs de données sont profilés, ce qui affecte automatiquement des classes de données prédéfinies qui décrivent le format des données.
Les collaborateurs de catalogue ajoutent des étiquettes, des termes métier prédéfinis, des classes de données et des classifications, des relations et des évaluations aux actifs.
Toutes les actions sur les actifs sont automatiquement sauvegardées dans l'historique des actifs.
Options de personnalisation pour la gouvernance des données
Copy link to section
Vous pouvez ajouter ou mettre à jour n'importe quelle option personnalisée à votre implémentation de gouvernance des données à tout moment. Votre équipe de gouvernance peut établir votre vocabulaire métier, importer et enrichir des données avec votre vocabulaire, analyser la qualité des données, définir des règles pour protéger les données, puis publier les actifs de données dans un catalogue où les consommateurs de données peuvent les trouver. Lorsque vos données changent, vous pouvez réimporter des métadonnées sur les tables ou les fichiers et enrichir vos actifs de données avec votre vocabulaire métier et l'analyse de la qualité des données. Vous pouvez créer des règles de plus en plus précises pour protéger les données au fur et à mesure que vous développez votre vocabulaire métier. Tout au long du cycle de gouvernance des données, vos spécialistes des données et d'autres consommateurs de données peuvent trouver des données de confiance dans des catalogues. L'illustration suivante montre comment la gouvernance des données est un cycle continu d'actualisation des métadonnées pour les actifs de données afin de refléter les changements dans les données et les changements dans votre vocabulaire métier.
Etablissez votre vocabulaire métier
Copy link to section
Votre équipe de gouvernance peut établir un vocabulaire métier qui décrit la signification des données avec des termes métier et le format des données avec des classes de données. Un vocabulaire métier aide vos utilisateurs métier à trouver plus facilement ce qu'ils recherchent en utilisant des termes non techniques.
Votre équipe peut rapidement établir votre vocabulaire métier en important votre vocabulaire métier existant ou en important des Knowledge Accelerators qui fournissent entre des dizaines et des milliers d'artefacts de gouvernance.
Votre administrateur IBM Knowledge Catalog peut personnaliser le flux de travaux, l'organisation, les propriétés et les relations des artefacts de gouvernance.
Importez et enrichissez des actifs de données avec votre vocabulaire métier
Copy link to section
Les intendants de données peuvent exécuter régulièrement des travaux d'importation et d'enrichissement de métadonnées qui mettent à jour le catalogue avec les modifications apportées aux tables ou aux fichiers de vos sources de données et affectent automatiquement les termes métier et les classes de données appropriés.
Lorsque votre équipe ajoute des artefacts de gouvernance, les travaux d'enrichissement de métadonnées suggèrent les nouveaux artefacts aux actifs de données nouveaux ou mis à jour.
Lorsque les intendants de données confirment ou ajustent les affectations de termes métier lors de l'enrichissement des métadonnées, les algorithmes d'apprentissage automatique pour l'affectation de termes deviennent plus précis pour vos données.
Les intendants de données peuvent configurer l'importation et l'enrichissement des métadonnées pour qu'ils s'exécutent uniquement lorsque des modifications sont détectées.
Vous pouvez utiliser les capacités d'enrichissement basées sur l'IA pour générer des noms descriptifs d'actifs et de colonnes, pour générer des descriptions significatives d'actifs et de colonnes, et pour attribuer des termes commerciaux.
Les intendants de données peuvent analyser la qualité des données avec les paramètres par défaut lors de l'enrichissement des métadonnées. L'analyse de la qualité des données est appliquée à chaque actif dans son ensemble et aux colonnes des tableaux.
Les intendants de données peuvent créer des définitions de qualité de données personnalisées et les appliquer dans des règles de qualité de données ou appliquer des règles de qualité de données SQL.
Votre équipe de gouvernance peut créer un plan pour les règles de protection des données en écrivant des politiques qui documentent les normes et les instructions de votre organisation pour la protection et la gestion des données. Par exemple, une règle peut décrire une réglementation spécifique et comment une règle de protection des données garantit la conformité à cette réglementation.
Votre équipe de gouvernance peut créer des règles de protection des données qui définissent comment conserver des informations privées privées. Les règles de protection des données sont automatiquement évaluées pour leur application chaque fois qu'un utilisateur tente d'accéder à un actif de données dans un catalogue gouverné sur la plateforme. Les règles de protection des données peuvent définir comment contrôler l'accès aux données, masquer les valeurs sensibles ou filtrer les lignes des actifs de données.
Votre équipe peut commencer par des règles de protection des données basées sur des balises personnalisées, des utilisateurs ou des classes de données prédéfinies, des termes métier et des classifications. Lorsque votre équipe de gouvernance ajoute des artefacts de gouvernance, elle peut définir des règles de protection des données en fonction de votre vocabulaire métier.
Les ingénieurs en traitement de données peuvent appliquer des règles de protection des données sur les données virtualisées.
Les ingénieurs en traitement de données peuvent masquer définitivement les données dans les actifs de données à l'aide de flux de masquage.
Les tâches d'initiation à IBM Knowledge Catalog dépendent de votre objectif. Les actions que vous pouvez effectuer sont définies par vos rôles d'accès au service Cloud Pak for Data . Certaines actions ont également des exigences de rôle d'espace de travail, comme être un collaborateur dans un catalogue ou une catégorie.
Le tableau suivant présente les objectifs communs, les rôles d'accès au service Cloud Pak for Data requis et des liens vers des informations pour vous aider à démarrer.
Objectif
Rôle d'accès au service Cloud Pak for Data requis
Plus d'information
Configuration ou administration d' IBM Knowledge Catalog
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.