数据治理是基于资产元数据跟踪和控制数据资产的过程。 目录是提供对受管资产的受控访问的工作空间。
- 必需服务
- IBM Knowledge Catalog
目录包含资产和合作者。 合作者是将资产添加到目录中的人员以及需要使用这些资产的人员。 您可以定制数据监管以丰富和控制目录中的数据资产。
了解有关监管的更多信息,或者开始使用目录和监管:
数据治理方法
您可以通过迭代方式设置数据监管。 您可以从依赖于预定义工件和缺省功能部件的数据监管的简单实现开始。 然后,随着需求的变化,您可以定制数据监管框架,以更好地描述和保护数据资产。
要查看可用于监管数据的工具,请打开工具和服务映射,然后单击 "任务" 部分中的 监管 。
最简单的数据治理实施
您可以使用目录在整个组织中共享资产。 目录可充当功能部件存储,方法是包含具有列的数据集,这些列在机器学习模型中用作功能部件 (输入)。 IBM Knowledge Catalog 管理员创建用于共享资产的目录,并将数据工程师,数据研究员和业务分析员添加为合作者。 目录合作者可以通过将目录资产复制到项目来处理这些资产,并且可以将他们在项目中创建的资产发布到目录中。
目录合作者可以将资产添加到目录以与其他人共享,或者通过以下方式查找和使用资产:
- 数据工程师在项目中创建经过清理的数据,虚拟化数据和集成的数据资产,然后将这些资产发布到目录中。
- 数据工程师将表或文件从数据源导入到目录中。
- 数据研究员和业务分析员在目录中查找数据资产,然后将这些资产添加到项目以处理数据。
数据资产通过以下方式随时间累积元数据:
- 将对数据资产进行概要分析,这将自动分配描述数据格式的预定义数据类。
- 目录合作者向资产添加标记,预定义业务术语,数据类以及分类,关系和评级。
- 资产上的所有操作都会自动保存在资产历史记录中。
请参阅创建目录。
用于数据监管的定制选项
您可以随时向数据监管实施添加或更新任何定制选项。 监管团队可以建立业务词汇表,使用词汇表导入和丰富数据,分析数据质量,定义规则以保护数据,然后将数据资产发布到数据使用者可以在其中找到数据的目录。 当数据发生更改时,您可以重新导入有关表或文件的元数据,并使用业务词汇表和数据质量分析来丰富数据资产。 随着业务词汇表的扩展,您可以创建越来越精确的规则来保护数据。 在整个数据监管周期中,您的数据研究员和其他数据使用者可以在目录中找到可信数据。 下图显示了数据监管如何连续循环刷新数据资产的元数据以反映数据中的更改以及业务词汇表中的更改。
建立业务词汇表
- 您的监管团队可以建立一个业务词汇表,用于描述具有业务术语的数据的含义以及具有数据类的数据的格式。 业务词汇表可帮助业务用户更轻松地使用非技术术语查找他们要查找的内容。
- 您的团队可以通过导入现有业务词汇表或导入 Knowledge Accelerators (提供数十到数千个监管工件) 来快速建立业务词汇表。
- IBM Knowledge Catalog 管理员可以定制监管工件的工作流程,组织,属性和关系。
请参阅 规划以实现监管框架。
使用业务词汇表导入和扩充数据资产
- Data Stewards 可以定期运行元数据导入和扩充作业,这些作业使用对来自数据源的表或文件的更改来更新目录,并自动分配相应的业务术语和数据类。
- 当您的团队添加监管工件时,元数据扩充作业会向新的或更新的数据资产建议新工件。
- 当数据管理员在元数据扩充期间确认或调整业务术语分配时,针对术语分配的机器学习算法将变得更准确适用于您的数据。
- 数据专员可以将元数据导入和扩充配置为仅在检测到更改时运行。
- 您可以使用基于 gen AI 的丰富功能来生成描述性的资产和列名,为资产和列生成有意义的描述,以及分配业务术语。
请参阅 规划要在目录中共享的数据资产。
分析数据质量
- 数据专员可以在元数据扩充期间使用缺省设置来分析数据质量。 数据质量分析将作为一个整体应用于每个资产以及表中的列。
- 数据专员可以创建定制数据质量定义并在数据质量规则中应用这些定义,或者应用基于 SQL 的数据质量规则。
请参阅 规划要在目录中共享的数据资产。
使用规则保护数据
- 监管团队可以通过编写策略来记录组织保护和管理数据的标准和准则,从而为数据保护规则创建计划。 例如,策略可以描述特定法规,以及数据保护规则如何确保符合该法规。
- 您的监管团队可以创建数据保护规则,以定义如何使私有信息保持私有。 每次用户尝试访问平台上任何受管目录中的数据资产时,都会自动评估数据保护规则的实施情况。 数据保护规则可以定义如何控制对数据的访问,屏蔽敏感值或过滤数据资产中的行。
- 您的团队可以从基于定制标记,用户或预定义数据类,业务术语和分类的数据保护规则开始。 当监管团队添加监管工件时,该团队可以根据业务词汇表定义数据保护规则。
- 数据工程师可以对虚拟化数据实施数据保护规则。
- 数据工程师可以使用屏蔽流永久屏蔽数据资产中的数据。
请参阅 规划使用规则保护数据。
IBM Knowledge Catalog 入门
IBM Knowledge Catalog 入门任务取决于您的目标。 您可以执行的操作由 Cloud Pak for Data 服务访问角色定义。 某些操作还具有工作空间角色需求,例如,作为目录或类别中的合作者。
要检查服务访问角色,请参阅 确定 IBM Cloud 帐户和服务访问角色。 要了解 IBM Knowledge Catalog 角色,请参阅 用户角色和许可权。
下表显示了常见目标,必需的 Cloud Pak for Data 服务访问角色以及入门信息的链接。
目标 | 必需的 Cloud Pak for Data 服务访问角色 | 更多信息 |
---|---|---|
设置或管理 IBM Knowledge Catalog | 经理 | 规划实施数据监管 设置 IBM Knowledge Catalog 管理 IBM Knowledge Catalog |
在目录中查找资产或功能部件 | 任何角色 | 在目录中查找资产 在平台中搜索资产 将目录资产添加到项目 |
整理数据 | CloudPak 数据专员或 CloudPak 数据工程师 |
整理数据 计划整理数据 |
管理数据质量 | CloudPak 数据专员或 CloudPak 数据工程师 |
管理数据质量 |
创建监管工件 | CloudPak 数据专员或 CloudPak 数据工程师 |
管理监管工件 导入 Knowledge Accelerators 规划以实现监管框架 |
创建数据保护规则 | CloudPak 数据专员或 CloudPak 数据工程师 |
数据保护规则 规划以使用规则保护数据 |
运行 IBM Knowledge Catalog API | 在 UI 中执行任务的相同角色。 | - IBM Knowledge Catalog API |
在 IBM Knowledge Catalog 上生成报告 | 报告管理员 | 设置报告 |