高级屏蔽选项通过使用高级取消标识技术保护数据,扩展了数据保护规则和数据位置规则的功能。 这些技术保持了数据的格式和完整性。 高数据利用率支持数据研究员、业务分析员和应用程序开发者等数据用户从受保护数据中生成高质量洞察。
高级屏蔽选项包含以下功能:
- 对 165 个预定义数据类进行格式保留去标识,以保持 AI 项目的实用性。
使用高级屏蔽选项定义的数据保护规则可用于IBM Data Virtualization。 规则可以实现保留任何预定义数据类 ( IBAN
和 URL
除外) 上的模糊处理的格式。
- 关系完整性,以在相关数据源之间以一致方式保护数据。
以下场景说明了高级屏蔽选项如何扩展数据保护规则的功能。
数据科学家希望在其 Machine Learning 模型中使用金融数据 (例如,信用卡号和银行帐号) 来预测欺诈交易。 信用卡号不能是 XXXXXXXXX,否则无法产生他们期望的结果。 相反,他们需要实际的信用卡号。 高级屏蔽 opion 中的保留格式方法产生符合格式要求的信用卡卡号。 格式要求包括维护问题标识信息(指定发卡的信用卡公司(Visa、Mastercard 等)、luhn 校验和算法等。 实际值屏蔽可确保数据用户产生准确的结果。
医疗保健数据用户希望使用包含患者姓名和地址信息的患者数据来分析终端疾病临床研究的结果。 患者的姓名不能被 "XXXX" 屏蔽,以产生他们正在寻找的结果。 相反,他们需要真实名字和真实的街道名称、城市以及国家/地区。 因此,当数据用户进行分析时,他们会有一个更广泛的背景,即住在 "Maple巷 123 号 "的 "无名氏 "就是患有乳腺癌的研究参与者。
由于高级屏蔽选项的特殊性,这些选项一次只能应用于一个数据类。 这些选项针对所有 165 个预定义的 IBM Knowledge Catalog 数据类进行了优化,并建议作为每个数据类的最佳格式保留选项。 但是,它们无法应用于定制定义的 IBM Knowledge Catalog 数据类。
只能对 Redact 和 Obfuscate 屏蔽方法启用 "高级屏蔽" 选项。 高级屏蔽选项通过使用 mask data in columns containing data class
应用于规则。 尚不支持业务术语、列名和标记。
使用高级屏蔽选项创建数据保护规则
仅对数据类启用了高级掩码选项。
完成条件并选择要处理的属性。 建议做法是通过以下某种方式创建规则:
如果数据类包含任何
__insert data class__
,那么屏蔽包含数据类__insert data class__
的列中的数据。您可以选择为资产所有者、业务术语、标记等添加条件,但要仔细了解这些监管工件的工作原理。 它们可能会无意中泄露未屏蔽的数据。 请参阅管理数据保护规则。
屏蔽较小的输入数据 (例如,布尔值或个位数) 可能类似于在运行屏蔽流作业,预览或下载数据时未屏蔽的数据。 但是,数据是屏蔽的,屏蔽的值与未屏蔽的值相同。
选择以下方法来屏蔽数据:
- 编辑列
- 对列进行模糊处理
高级屏蔽不支持替换。
在 "高级屏蔽选项" 部分中选择屏蔽选项。 缺省情况下已为您选择了一些选项。 有关更多信息,请参阅编辑数据方法和模糊处理数据方法。
创建规则。 请参阅 掩码数据 ,以获取有关如何屏蔽资产中的数据的更多信息。
使用屏蔽预览
"示例数据" 部分中的 "预览前" 显示在运行屏蔽流作业之前在目录,项目和动态中查看数据资产时如何屏蔽数据。 "示例数据" 部分中的 "后预览" 显示如何在通过运行屏蔽流作业生成的屏蔽副本中屏蔽数据。
观看此视频以了解如何设置高级屏蔽选项并在项目中创建屏蔽流资产。
此视频提供了一种可视方法来学习本文档中的概念和任务。
后续步骤
了解更多信息
父主题: 数据保护规则