数据组织是将数据资产添加到某个项目或目录,通过指定分类、数据类和业务术语来增补增补资产,以及分析和改善数据质量的过程。
在开始整理数据之前,您必须先设置IBM Knowledge Catalog这样你就有了一个治理框架和至少一个用于共享精选资产的目录(请参阅规划实施数据治理)。
组织基本上是一个手动操作过程,在此过程中,您可以一次组织一个数据资产。 高级组织是一个自动化程度较高的过程,在此过程中,可以同时为多个数据资产自动完成组织任务。
要求和限制
对于数据整理,存在以下需求和限制。
数据整理工具
您可以使用以下工具:
个必需的服务
数据整理需要IBM Knowledge Catalog、IBM Knowledge Catalog Standard或IBM Knowledge Catalog Premium。 元数据丰富化背景下的高级分析(高级剖析以及深入的关键和关系分析)也需要DataStage服务。
数据格式
支持以下数据格式:
- 来自关系和非关系数据源的表,Amazon S3 Delta Lake 表
- Metadata import: 从基于文件的连接到数据源的任何格式
- 元数据扩充: 表格 :CSV , TSV , Avro , Parquet 和 Microsoft Excel
有关受支持的连接器的信息,请参阅 用于组织和数据质量的受支持数据源。
数据大小
数据整理适用于任何大小的数据。
必需的许可权
您的角色确定您可以执行的组织任务:
- 您必须具有 CloudPak Data Steward 角色或至少具有相同操作集的定制角色。 请参阅 预定义角色。
- 要使用与组织工具关联的资产,您还必须在项目和目录中具有特定角色。 有关确切的需求,请参阅各个工具。
工作空间
您可以在以下工作空间中执行组织任务:
- 项目
- 目录
根据您要执行的组织任务,在数据准备就绪可供其他用户使用之前,您需要在项目和/或目录中对数据资产进行处理。
项目是一个协作工作空间,您通常会在其中准备和分析数据,然后将数据发布到某个目录,使数据可供组织中的其他用户使用。 如果您可以在无需进一步准备的情况下共享数据,那么还可以直接将数据添加到目录。 某些类型的数据只能添加到目录中。
组织任务
这些组织任务让您能够开发有价值的数据资产:
将数据资产添加到项目或目录:
- 将资产从连接添加到数据源,通过 元数据导入自动手动逐个或多个数据资产。 将数据保留在云或本地的位置,仅添加资产元数据和连接信息以访问项目或目录中的数据。
- 将单个文件上载到与项目或目录关联的存储器。
- 手动将资产从目录添加到项目以进行处理。
分析并增补您的数据:
对单个数据资产进行概要分析,以获取有关资产内容的基本统计信息,并在项目或目录中分配数据类。 请参阅对数据资产进行概要分析。
在项目中创建并运行元数据增补。 请参阅 扩充数据资产。
- 在单次运行中对多个数据资产进行概要分析,以自动分配数据类并标识列的数据类型和格式。
- 在一次运行中对多个数据集运行质量分析,以扫描常见数据质量问题,例如缺失值或数据类违例。
- 自动将业务术语分配给资产,并根据数据分类或机器学习算法生成术语建议。
复审扩充项结果。 数据资产的质量得分的整体视图在项目中的元数据扩充资产中可用。 您可以通过单击质量分数来查看每个数据资产或列的详细结果。 或者,您可以在项目或目录中访问资产的 数据质量 选项卡上的信息。
每隔一段时间重新运行导入和扩充作业,以发现并评估对数据资产的更改。 您可以手动执行此操作,也可以设置用于导入和扩充的调度。
通过运行数据质量规则来评估数据质量。
优化数据以提高其在项目中的质量和实用性。
将资产从项目发布到目录。
对目录中的数据资产进行评级和复审。
创建标记并将其添加到目录中的数据资产。
将分类和业务术语添加到目录中的单个数据资产。
任务 | 在何处手动操作? | 在何处自动操作? |
---|---|---|
创建资产 | 项目 目录 |
项目 目录 |
分配数据类 | 项目 目录 |
项目 目录 |
分配分类 | 目录 | — |
分配业务术语 | 项目 目录 |
项目 |
分析数据质量 (元数据扩充) |
项目 | 项目 |
评估数据质量 (规则) | 项目 | 项目 |
样本流: 高级管理
组织流可能具有以下任务:
在项目中,创建并运行元数据导入,目标为 发现 以执行元数据从连接到项目的批量导入。 您还可以将元数据导入配置为在一次性或重复调度上运行。
在同一项目中,创建并运行元数据扩充以在单次运行中完成导入的数据资产集的以下任务:
- 对数据资产进行概要分析。
- 对数据资产运行质量分析。
- 自动将业务术语分配给导入的资产并生成术语建议。
您还可以为元数据扩充设置一次性或重复调度。 您可以使扩充项调度与为元数据导入配置的调度保持一致。
查看数据资产及其列的扩充项结果。
将增补的数据资产发布到目录。
您可以使用 API 而不是用户界面来执行大多数组织任务。 每个适用任务都列出了指向 IBM Knowledge Catalog API 的链接。
了解更多信息
父主题: 准备数据