Datengovernance ist der Prozess der Verfolgung und Steuerung von Datenassets auf der Basis von Assetmetadaten. Kataloge sind Arbeitsbereiche, in denen Sie kontrollierten Zugriff auf regulierte Assets ermöglichen.
Erforderlicher Service
IBM Knowledge Catalog
Ein Katalog enthält Assets und Mitarbeiter. Mitarbeiter sind die Personen, die Assets zum Katalog hinzufügen, und die Personen, die die Assets verwenden müssen. Sie können Datengovernance anpassen, um Datenassets in Katalogen aufzubereiten und zu steuern.
Erfahren Sie mehr über Governance oder beginnen Sie mit Katalogen und Governance:
Sie können Datengovernance auf iterative Weise konfigurieren. Sie können mit einer einfachen Implementierung von Datengovernance beginnen, die auf vordefinierten Artefakten und Standardfeatures basiert. Wenn sich Ihre Anforderungen ändern, können Sie Ihr Datengovernance-Framework anpassen, um Ihre Datenassets besser zu beschreiben und zu schützen.
Um die Tools anzuzeigen, mit denen Sie Daten regulieren können, öffnen Sie die Karte 'Tools und Services' und klicken Sie im Taskabschnitt auf Governance .
Einfachste Implementierung von Datengovernance
Copy link to section
Sie verwenden einen Katalog, um Assets in Ihrer Organisation gemeinsam zu nutzen. Ein Katalog kann als Feature-Store fungieren, indem er Datasets mit Spalten enthält, die als Features (Eingaben) in Modellen für maschinelles Lernen verwendet werden. Ein IBM Knowledge Catalog -Administrator erstellt den Katalog für die gemeinsame Nutzung von Assets und fügt Datenentwickler, Data-Scientists und Geschäftsanalysten als Mitarbeiter hinzu. Katalogmitarbeiter können mit Katalogassets arbeiten, indem sie sie in Projekte kopieren und Assets veröffentlichen, die sie in Projekten im Katalog erstellen.
Katalogmitarbeiter können Assets zum Katalog hinzufügen, um sie mit anderen zu teilen oder Assets auf folgende Arten zu suchen und zu verwenden:
Datenentwickler erstellen bereinigte Daten, virtualisierte Daten und integrierte Datenassets in Projekten und publizieren die Assets anschließend im Katalog.
Datenentwickler importieren Tabellen oder Dateien aus einer Datenquelle in den Katalog.
Data-Scientists und Geschäftsanalysten suchen Datenassets in Katalogen und fügen die Assets anschließend Projekten hinzu, um mit den Daten zu arbeiten.
Datenassets sammeln Metadaten im Laufe der Zeit auf folgende Arten an:
Für Datenassets wird ein Profil erstellt, das automatisch vordefinierte Datenklassen zuordnet, die das Format der Daten beschreiben.
Katalogmitarbeiter fügen Tags, vordefinierte Geschäftsbegriffe, Datenklassen und Klassifizierungen, Beziehungen und Bewertungen zu Assets hinzu.
Alle Aktionen für Anlagen werden automatisch in der Anlagenhistorie gespeichert.
Sie können jederzeit benutzerdefinierte Optionen zu Ihrer Datengovernance-Implementierung hinzufügen oder aktualisieren. Ihr Governance-Team kann Ihr Geschäftsvokabular erstellen, Daten mit Ihrem Vokabular importieren und aufbereiten, die Datenqualität analysieren, Regeln zum Schutz von Daten definieren und die Datenassets anschließend in einem Katalog veröffentlichen, in dem die Datenkonsumenten sie finden können. Wenn sich Ihre Daten ändern, können Sie Metadaten zu den Tabellen oder Dateien erneut importieren und Ihre Datenassets mit Ihrem Geschäftsvokabular und Ihrer Datenqualitätsanalyse aufbereiten. Sie können immer präzisere Regeln erstellen, um Daten zu schützen, wenn Sie Ihr Geschäftsvokabular erweitern. Während des Datengovernance-Zyklus können Ihre Data-Scientists und anderen Datenkonsumenten vertrauenswürdige Daten in Katalogen finden. Die folgende Abbildung zeigt, wie Datengovernance ein kontinuierlicher Zyklus der Aktualisierung der Metadaten für Datenassets ist, um Änderungen in den Daten und in Ihrem Geschäftsvokabular widerzuspiegeln.
Business-Vokabular erstellen
Copy link to section
Ihr Governance-Team kann ein Geschäftsvokabular erstellen, das die Bedeutung von Daten mit Geschäftsbegriffen und das Format von Daten mit Datenklassen beschreibt. Ein Geschäftsvokabular hilft Ihren Geschäftsbenutzern, mithilfe nicht technischer Begriffe leichter zu finden, wonach sie suchen.
Ihr Team kann Ihr Geschäftsvokabular schnell erstellen, indem Sie Ihr vorhandenes Geschäftsvokabular importieren oder Knowledge Accelerators importieren, die Dutzende bis Tausende von Governance-Artefakten bereitstellen.
Ihr IBM Knowledge Catalog -Administrator kann den Workflow, die Organisation, die Eigenschaften und die Beziehungen von Governance-Artefakten anpassen.
Datenassets mit Ihrem Geschäftsvokabular importieren und aufbereiten
Copy link to section
Data-Stewards können regelmäßig Metadatenimport-und -aufbereitungsjobs ausführen, die den Katalog mit Änderungen an Tabellen oder Dateien aus Ihren Datenquellen aktualisieren und die entsprechenden Geschäftsbegriffe und Datenklassen automatisch zuordnen.
Wenn Ihr Team Governance-Artefakte hinzufügt, schlagen die Metadatenaufbereitungsjobs die neuen Artefakte den neuen oder aktualisierten Datenassets vor.
Wenn Data-Stewards Geschäftsbegriffszuordnungen während der Metadatenaufbereitung bestätigen oder anpassen, werden die Algorithmen für maschinelles Lernen für die Begriffszuordnung für Ihre Daten präziser.
Data-Stewards können Metadatenimport und -aufbereitung so konfigurieren, dass sie nur ausgeführt werden, wenn Änderungen erkannt werden.
Sie können die KI-basierten Anreicherungsfunktionen von gen nutzen, um beschreibende Asset- und Spaltennamen zu generieren, um aussagekräftige Beschreibungen für Assets und Spalten zu erstellen und um Geschäftsbegriffe zuzuweisen.
Data-Stewards können die Datenqualität mit Standardeinstellungen während der Metadatenaufbereitung analysieren. Die Datenqualitätsanalyse wird auf jedes Asset als Ganzes und auf Spalten in Tabellen angewendet.
Datenverantwortliche können angepasste Datenqualitätsdefinitionen erstellen und diese in Datenqualitätsregeln anwenden oder SQL-basierte Datenqualitätsregeln anwenden.
Ihr Governance-Team kann einen Plan für Datenschutzregeln erstellen, indem Richtlinien geschrieben werden, die die Standards und Richtlinien Ihres Unternehmens zum Schutz und zur Verwaltung von Daten dokumentieren. Eine Richtlinie kann beispielsweise eine bestimmte Verordnung beschreiben und wie eine Datenschutzregel die Einhaltung dieser Verordnung sicherstellt.
Ihr Governance-Team kann Datenschutzregeln erstellen, die definieren, wie private Informationen privat bleiben. Datenschutzregeln werden automatisch für die Durchsetzung ausgewertet, wenn ein Benutzer versucht, auf ein Datenasset in einem regulierten Katalog auf der Plattform zuzugreifen. Datenschutzregeln können definieren, wie der Zugriff auf Daten gesteuert, sensible Werte maskiert oder Zeilen aus Datenassets gefiltert werden.
Ihr Team kann mit Datenschutzregeln beginnen, die auf angepassten Tags, Benutzern oder vordefinierten Datenklassen, Geschäftsbegriffen und Klassifizierungen basieren. Wenn Ihr Governance-Team Governance-Artefakte hinzufügt, kann das Team Datenschutzregeln basierend auf Ihrem Geschäftsvokabular definieren.
Datenentwickler können Datenschutzregeln für virtualisierte Daten durchsetzen.
Datenentwickler können Daten in Datenassets mit Maskierungsflüssen permanent maskieren.
Die Tasks für den Einstieg in IBM Knowledge Catalog hängen von Ihrem Ziel ab. Welche Aktionen Sie ausführen können, wird durch Ihre Cloud Pak for Data -Servicezugriffsrollen definiert. Einige Aktionen haben auch Anforderungen an die Arbeitsbereichsrolle, z. B. als Mitarbeiter in einem Katalog oder einer Kategorie.
Informationen zum Überprüfen Ihrer Servicezugriffsrollen finden Sie unter IBM Cloud. Informationen zum Verständnis Ihrer IBM Knowledge Catalog -Rollen finden Sie unter Benutzerrollen und -berechtigungen.
In der folgenden Tabelle sind allgemeine Ziele, die erforderlichen Servicezugriffsrollen für Cloud Pak for Data und Links zu Informationen für den Einstieg aufgeführt.
Ziel
Erforderliche Servicezugriffsrolle für Cloud Pak for Data
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.