许多企业难以在提供数据访问的好处与保护敏感数据的需要之间取得平衡。 Cloud Pak for Data as a Service 提供了企业自动执行数据监管所需的方法,以便您可以确保数据可访问和受保护。
观看此视频,以查看用于在 Cloud Pak for Data中实施数据监管解决方案的数据光纤网用例。
此视频提供了一种可视方法来学习本文档中的概念和任务。
挑戰
许多企业面临以下数据治理挑战:
- 大规模提供数据隐私
- 组织必须遵守针对跨多个云平台和内部部署的数据源中数据的数据隐私法规。
- 访问数据高质量数据
- 组织必须跨多个团队提供对高质量企业数据的访问权。
- 创建完整的客户概要文件
- 团队需要快速大规模构建客户的准确视图,以优化自助服务流程和数据管理。
- 提供自助服务数据使用
- 数据使用者 (如数据科学家) 难以找到和使用他们所需的数据。
您可以通过使用 Cloud Pak for Data as a Service实现数据光纤网来解决这些问题。
示例: Golden Bank 的挑战
随着治理团队实施数据治理,关注金银的故事。 金银有大量的客户和抵押贷款数据,其中包括敏感数据。 银行希望确保数据的质量,屏蔽敏感数据,并使其可供多个部门使用。
进程
如何实施数据监管取决于组织的需求。 您可以采用线性或迭代方式实施数据监管。 您可以依赖于缺省功能部件和预定义工件,或者定制解决方案。
要实施数据监管,贵组织可以遵循以下过程:
Cloud Pak for Data 中的 IBM Knowledge Catalog 服务提供组织实施数据监管解决方案所需的工具和流程。
1. 建立业务词汇表
要应对这些挑战,您的团队需要通过导入或创建充当元数据的监管工件来建立业务词汇表,以便对数据进行分类和描述:
- 在自动执行数据隐私之前,您的团队需要确保准确识别要控制的数据。
- 在分析数据质量之前,需要确定数据的格式。
- 为了使数据易于查找,您的团队需要确保准确描述数据的内容。
在此流程的第一步中,监管团队可以基于预定义监管工件进行构建,并创建特定于组织的定制监管工件。 您可以创建工件来描述数据的格式,业务含义,敏感度,值范围和监管策略。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
类别 | 使用预定义类别来存储监管工件。 创建类别以在类似于文件夹的分层结构中组织监管工件。 添加具有角色的合作者,这些角色定义他们对类别中工件的许可权。 |
您需要的不仅仅是预定义的类别。 您希望对谁可以拥有,编写和查看监管工件进行细颗粒度控制。 |
工作流程 | 使用不限制谁创建监管工件或需要复审的缺省工作流程配置。 为监管工件配置工作流程,并指定谁可以在哪些类别中创建哪些类型的监管工件。 |
您希望控制创建监管工件的人员。 您希望在发布草稿监管工件之前对其进行复审。 |
监管工件 | 使用预定义的业务术语,数据类和分类。 创建充当元数据的监管工件以增补,定义和控制数据资产。 |
您希望向资产添加知识和含义,以帮助人们了解数据。 您希望改进数据质量分析。 |
Knowledge Accelerators | 导入一组预定义的监管工件,以改进数据分类,法规合规性,自助服务分析和其他监管操作。 | 您需要标准词汇表来描述业务问题,业务绩效,行业标准和法规。 您希望通过导入预先创建的监管工件来节省时间。 |
示例: Golden Bank 的业务词汇表
Golden Bank 的监管团队负责人首先创建一个类别 Banking,以保存团队计划创建的监管工件。 团队负责人将其余监管团队成员作为合作者添加到具有 编辑者 角色的 银行 类别,以便他们有权创建监管工件。 然后,团队负责人将配置工作流程,以便不同的团队成员负责创建每种类型的工件。 所有工作流程都需要团队负责人执行核准步骤。
一个监管团队成员从电子表格导入一组业务术语。 部分业务术语与个人客户的职业相关。 另一个团队成员创建一个参考数据集 "专业" ,其中包含一个职业列表,每个职业都有一个 ID 号。 第三个团队成员根据参考数据集创建定制数据类 "专业" 以识别个人客户的专业。
2. 定义规则以保护数据
在流程的下一步中,您的团队定义了规则,通过控制谁可以查看哪些数据来确保符合数据隐私法规。 您的团队创建数据保护规则以定义如何保护受管目录中的数据。 您的团队可以使用这些数据保护规则根据数据的内容,格式或含义或访问数据的用户的身份来屏蔽敏感数据。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
数据保护规则 | 通过拒绝数据访问,屏蔽数据值或过滤数据资产中的行,防止敏感信息在受管目录中进行未经授权的访问。 以用户定义的粒度级别动态且一致地屏蔽受管目录中的数据。 |
您需要在受管目录中自动实施数据隐私。 您希望保留数据的可用性和效用,同时遵守隐私法规。 |
屏蔽流程 | 在抽取生产数据的副本或子集时使用高级格式保留数据屏蔽功能。 | 您需要保留数据完整性的匿名化训练数据和测试集。 |
策略和监管规则 | 描述并记录组织的数据安全准则,法规,标准或过程。 描述实施监管策略所需的行为或操作。 |
您希望使用数据的人员了解数据监管策略。 |
示例: Golden Bank 的数据保护规则
要为抵押贷款审批创建预测模型, Golden Bank 的数据科学家需要访问包含敏感数据的数据集。 例如,数据研究员希望访问包含有关抵押贷款申请人的数据的表,其中包括包含社会保障号的列。
监管团队成员创建用于屏蔽社会安全号的数据保护规则。 如果数据资产中列的已分配数据类为 "US Social Security Number" ,那么该列中的值将替换为 10 X。
监管团队成员创建包含数据保护规则的策略。 此策略描述实现规则的业务原因。
3. 整理要在目录中共享的数据
数据管理员负责整理项目中的高质量数据资产,并将其发布到需要数据的人员可以在其中找到这些资产的目录中。 数据专员通过将监管工件指定为描述数据的元数据并通知数据的语义搜索来丰富数据资产。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
Metadata import | 自动导入与连接关联的数据的技术元数据以创建数据资产。 | 您需要从数据源创建许多数据资产。 您需要刷新先前导入的数据资产。 |
元数据增补 | 在一次运行中对多个数据资产进行概要分析,以自动分配数据类并标识数据类型和列格式。 自动将业务术语分配给资产,并根据数据分类生成术语建议。 每隔一段时间重新运行导入和扩充作业,以发现并评估对数据资产的更改。 |
您需要对导入的许多数据资产进行组织和发布。 |
数据质量分析 | 对数据集运行数据质量检查以扫描数据中的质量问题。 持续跟踪对数据内容和结构的更改,并递归分析已更改的数据。 |
您需要知道数据的质量是否可能影响数据分析或模型的准确性。 您的用户需要确定要补救的数据集。 |
示例: Golden Bank 的数据整理
监管团队上的数据管理员开始导入元数据以在项目中创建数据资产。 在元数据导入之后, Golden Bank 有两个数据资产表示具有名为 "ID" 的列的表。 在元数据扩充之后,这些列将按其分配的元数据进行明确区分:
- 其中一个列分配有业务术语 "职业" 和 "职业" ,以及数据类 "职业"。
- 另一列分配有业务术语 "个人标识" 和 "私人个人" 以及数据类 "美国社会保障号"。
数据专员对数据资产运行数据质量分析,以确保总体数据质量得分超过金库阈值 95%。
监管团队负责人创建目录 "抵押贷款审批目录" ,并将数据管理员和数据研究员添加为目录合作者。 数据专员将他们在项目中创建的数据资产发布到目录中。
4. 共享或使用数据
该目录可帮助您的团队了解您的数据,并使正确的数据可供正确使用。 数据科学家和其他类型的用户可以在遵守企业访问和数据保护策略的同时,帮助自己获取所需的数据。 他们可以将目录中的数据资产添加到项目中,并在该项目中协作准备,分析和建模数据。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
目录 | 组织资产以在组织中的合作者之间共享。 利用 AI 支持的语义搜索和建议,帮助用户找到所需的内容。 |
您的用户需要轻松了解,协作,丰富和访问高质量数据。 您希望提高数据的可视性以及业务用户之间的协作。 您需要用户查看,访问,处理和分析数据,而无需了解其物理格式或位置,也无需移动或复制数据。 您希望用户通过评级和复审资产来增强资产。 |
全局搜索 | 在您有权访问的所有项目,目录和部署空间中搜索资产。 在您有权访问的类别中搜索监管工件。 |
您需要查找数据或其他类型的资产或监管工件。 |
Data Refinery | 清理数据以修正或除去不正确,不完整,格式不正确或重复的数据。 整理数据以通过过滤,排序,组合或除去列来对其进行定制。 |
您需要提高数据的质量或效用。 |
示例: Golden Bank 的目录
数据研究员在目录中查找所需的数据资产,并将这些资产复制到项目中。 在他们的项目中,数据科学家可以优化数据,为训练模型做好准备。
数据监管教程
教程 | 描述 | 教程的专业知识 |
---|---|---|
整理高质量数据 | 通过丰富数据和运行数据质量分析,创建高质量数据资产。 | 运行 Metadata import 和元数据扩充工具。 |
保护数据 | 控制对 Cloud Pak for Data as a Service中的数据的访问。 | 创建数据保护规则。 |
使用数据 | 查找,塑造和分析数据。 | 浏览目录并运行 Data Refinery 工具。 |
监管虚拟化数据 | 丰富虚拟化数据,确保虚拟数据受到保护。 | 使用 "Data Virtualization界面、项目和目录管理虚拟化数据。 |
了解有关数据监管的更多信息
父主题: 用例