屏蔽流允许数据管理员为数据研究员,业务分析员和应用程序测试人员生成屏蔽的数据副本。 将使用数据保护规则来保护数据,并且这些规则将自动应用于已导入到目录的所有数据。
屏蔽流还为数据保护规则引入了高级屏蔽选项,如增强格式保存、单向散列标记化、保持关系的能力,以及提高屏蔽数据的实用性。 具有高级屏蔽功能的数据保护规则仅在项目中起作用。
- 必需的服务
- IBM Knowledge Catalog
- Data Privacy (屏蔽流程)
- 数据格式
- 关系:关系数据源中的表
- 数据大小
- 任意大小
在创建屏蔽流程之前,数据管理员必须完成以下先决条件任务。
完成先决条件任务后,数据管理员和数据用户便可以执行以下某个任务:
- 创建一个新项目,并在该项目中添加要屏蔽的数据资产。
- 选择包含数据资产的现有项目。
完成其中一项任务后,单击 新资产 > 复制和屏蔽数据。
"屏蔽" 流程中的用户角色
作为数据管理员(或数据工程师),您已深入了解数据资产以及数据用户的数据需求。 您负责准备数据以屏蔽和配置用户对屏蔽数据的访问权。 请参阅 数据管理员必须完成的任务。
作为数据用户(例如数据研究员、业务分析员、测试人员和开发人员),您需要依靠数据管理员来管理和提供工作所需的受保护数据。 请参阅 数据用户可以执行的任务。
支持的数据源
屏蔽流支持以下关系数据源和非关系数据源:
- Apache Hive
- Db2 LUW
- Db2 Warehouse
- MySQL
- Netezza
- Oracle
- PostgreSQL
- SQL Server
- Teradata
数据管理员需执行的先决条件任务
- 所需许可权
- 您必须是 IBM Cloud 帐户管理员。
在安装 "屏蔽" 流时,您的组织中至少设置了一个管理员帐户。 此管理员可以向其他用户授予管理员访问权。
通过完成以下任务来准备私有化数据:
创建目录。
通过使用 metadata自动导入数据资产,将数据资产添加到目录。 您可以创建连接以访问元数据目录中的数据。 导入数据资产时,选择上一步中创建的目录作为导入目标。 请参阅 将资产从项目发布到目录。
设置数据保护规则。 数据保护规则适用于所有受管目录,并且在使用屏蔽流创建数据的屏蔽副本时由屏蔽流实施。 高级数据屏蔽选项 仅针对数据类启用。
通过将用户添加到 IBM Cloud 帐户并 为组织设置 Cloud Pak for Data as a Service来 管理用户访问权 。
通过 管理对目录的访问权将数据用户添加到目录。
避免意外数据泄露
将资产从目录移到项目中
缺省情况下,不会对资产所有者(将资产添加到目录的用户)强制实施数据保护规则。 这意味着,对于资产所有者,其拥有的数据资产的目录预览不受保护。
- 将资产从目录移到项目中时,项目中的资产是目录资产的副本。 项目资产未链接到数据保护规则。
- 如果移动资产的用户是资产所有者,那么资产预览对项目中的所有用户都是公开的。
- 如果移动资产的用户不是资产所有者,那么将对项目中的所有用户都屏蔽资产预览。
由于不会对资产所有者实施数据保护规则,因此当资产所有者运行屏蔽流时,不会屏蔽装入到目标数据库的数据副本。 仅当数据用户运行屏蔽流程时才会屏蔽数据。
用于避免意外数据泄露的最佳实践
请考虑用于避免数据泄露的以下最佳实践:
不应使用管理员用于将元数据导入到目录的项目来屏蔽流程。 如果要对元数据导入和屏蔽流程使用同一个项目,请确保项目中的所有用户都有权查看未屏蔽的数据。
数据管理员不应将数据从目录移到项目中以创建屏蔽流程。 数据管理员应该将数据用户作为查看者添加到目录中,并且仅允许数据用户将数据从目录移到项目中。 他们可以选择将其他用户添加到项目中。
避免内存不足错误
在屏蔽流作业期间,Spark 可能会尝试将所有数据源读取到内存中。 如果没有足够的内存来支持作业,那么可能会发生错误。 可放入部署的最大 Spark 处理节点的最大数据量大约为 12GB。
对于内存使用率较高的屏蔽流作业,要避免内存不足错误:
- 限制作业的执行程序数和执行程序大小。
- 设置源表中的列以对数据进行分区。
- 当屏蔽流作业涉及移动大量数据时,请确保选择在屏蔽流作业期间可用来对数据进行分区的列。
输出被截断以适应列长度限制
列长度 是为数据库中的列定义的字符串类型数据的最大长度。
先前,生成的屏蔽输出不考虑列长度,如果任何输出值超过列长度,那么屏蔽流作业将失败。
现在,将截断生成的输出,以确保其不超过列长度限制。
数据用户需执行的先决条件任务
数据用户必须已经是平台成员或具有“数据研究员”角色的许可权级别。
- 所需许可权
- 您必须拥有 IBM Cloud 帐户,并有权使用 IBM Knowledge Catalog Lite 计划。
可选许可权
- 数据管理员可以向您授予对目录的“编辑者”或“查看者”访问权。
- 数据管理员或其他数据用户也可以向您授予对其创建的单个项目的访问权。
通过完成以下任务来准备掩码数据副本: