반복적인 방식으로 데이터 거버넌스를 설정할 수 있습니다. 사전 정의된 아티팩트 및 기본 기능에 의존하는 데이터 통제의 단순 구현으로 시작할 수 있습니다. 그런 다음, 요구사항이 변경됨에 따라 데이터 거버넌스 프레임워크를 사용자 정의하여 데이터 자산을 보다 잘 설명하고 보호할 수 있습니다.
데이터를 통제하는 데 사용할 수 있는 도구를 보려면 도구 및 서비스 맵을 열고 태스크 섹션에서 통제 를 클릭하십시오.
데이터 거버넌스의 가장 단순한 구현
Copy link to section
카탈로그를 사용하여 조직 전체에서 자산을 공유합니다. 카탈로그는 기계 학습 모델에서 기능 (입력) 으로 사용되는 열이 있는 데이터 세트를 포함하여 기능 저장소 역할을 할 수 있습니다. IBM Knowledge Catalog 관리자가 자산을 공유하기 위한 카탈로그를 작성하고 데이터 엔지니어, 데이터 과학자 및 비즈니스 분석가를 협업자로 추가합니다. 카탈로그 협업자는 프로젝트에 복사하여 카탈로그 자산에 대해 작업할 수 있으며 프로젝트에서 작성하는 자산을 카탈로그에 공개할 수 있습니다.
카탈로그 협업자는 카탈로그에 자산을 추가하여 다른 사용자와 공유하거나 다음 방법으로 자산을 찾아 사용할 수 있습니다.
데이터 엔지니어는 프로젝트에서 정리된 데이터, 가상화된 데이터 및 통합 데이터 자산을 작성한 후 자산을 카탈로그에 공개합니다.
데이터 엔지니어는 데이터 소스에서 카탈로그로 테이블 또는 파일을 가져옵니다.
데이터 과학자 및 비즈니스 분석가는 카탈로그에서 데이터 자산을 찾은 후 프로젝트에 자산을 추가하여 데이터에 대해 작업합니다.
데이터 자산은 다음과 같은 방식으로 시간 경과에 따라 메타데이터를 누적합니다.
데이터 자산이 프로파일링되며, 이는 데이터의 형식을 설명하는 사전 정의된 데이터 클래스를 자동으로 지정합니다.
카탈로그 협업자는 자산에 태그, 사전 정의된 비즈니스 용어, 데이터 클래스, 분류, 관계 및 등급을 추가합니다.
언제든지 데이터 관리 구현에 사용자 정의 옵션을 추가하거나 업데이트할 수 있습니다. 통제 팀은 비즈니스 어휘를 설정하고 어휘를 사용하여 데이터를 가져오고 강화하며 데이터 품질을 분석하고 데이터를 보호하기 위한 규칙을 정의한 후 데이터 이용자가 찾을 수 있는 카탈로그에 데이터 자산을 공개할 수 있습니다. 데이터가 변경되면 테이블 또는 파일에 대한 메타데이터를 다시 가져오고 비즈니스 어휘 및 데이터 품질 분석을 사용하여 데이터 자산을 강화할 수 있습니다. 비즈니스 어휘를 확장할 때 데이터를 보호하기 위해 점점 더 정확한 규칙을 작성할 수 있습니다. 데이터 거버넌스 주기 동안 데이터 과학자 및 기타 데이터 이용자는 카탈로그에서 신뢰할 수 있는 데이터를 찾을 수 있습니다. 다음 그림은 비즈니스 어휘의 변경사항 및 데이터의 변경사항을 반영하기 위해 데이터 자산에 대한 메타데이터를 새로 고치는 지속적인 주기인 데이터 통제 방법을 보여줍니다.
비즈니스 어휘 설정
Copy link to section
통제 팀은 비즈니스 용어를 사용하여 데이터의 의미를 설명하고 데이터 클래스를 사용하여 데이터의 형식을 설명하는 비즈니스 어휘를 설정할 수 있습니다. 비즈니스 어휘를 사용하면 비즈니스 사용자가 기술적이지 않은 용어를 사용하여 원하는 내용을 보다 쉽게 찾을 수 있습니다.
팀은 기존 비즈니스 어휘를 가져오거나 수십-수천 개의 통제 아티팩트를 제공하는 Knowledge Accelerators 를 가져와서 비즈니스 어휘를 빠르게 설정할 수 있습니다.
IBM Knowledge Catalog 관리자는 통제 아티팩트의 워크플로우, 조직, 특성 및 관계를 사용자 정의할 수 있습니다.
통제 팀은 조직의 표준과 데이터 보호 및 관리 가이드라인을 문서화하는 정책을 작성하여 데이터 보호 규칙에 대한 계획을 작성할 수 있습니다. 예를 들어, 정책은 특정 규정 및 데이터 보호 규칙이 해당 규정을 준수하는지 확인하는 방법을 설명할 수 있습니다.
통제 팀은 개인 정보를 개인용으로 유지하는 방법을 정의하는 데이터 보호 규칙을 작성할 수 있습니다. 데이터 보호 규칙은 사용자가 플랫폼의 통제된 카탈로그에 있는 데이터 자산에 액세스하려고 시도할 때마다 자동으로 적용에 대해 평가됩니다. 데이터 보호 규칙은 데이터에 대한 액세스를 제어하거나 민감한 값을 마스크하거나 데이터 자산에서 행을 필터링하는 방법을 정의할 수 있습니다.
팀은 사용자 정의 태그, 사용자 또는 사전 정의된 데이터 클래스, 비즈니스 용어 및 분류를 기반으로 하는 데이터 보호 규칙으로 시작할 수 있습니다. 통제 팀이 통제 아티팩트를 추가할 때 팀은 비즈니스 어휘를 기반으로 데이터 보호 규칙을 정의할 수 있습니다.
데이터 엔지니어는 가상화된 데이터에 대한 데이터 보호 규칙을 적용할 수 있습니다.
데이터 엔지니어는 마스킹 플로우를 사용하여 데이터 자산의 데이터를 영구적으로 마스킹할 수 있습니다.
IBM Knowledge Catalog 를 시작하기 위한 태스크는 사용자의 목표에 따라 다릅니다. 수행할 수 있는 조치는 Cloud Pak for Data 서비스 액세스 역할에 의해 정의됩니다. 일부 조치에는 카탈로그 또는 카테고리의 협업자와 같은 작업공간 역할 요구사항도 있습니다.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.