必须先将每个数据源或资产映射并发布到数据模型中,然后才能在 IBM Match 360 函数 (例如,匹配) 中使用这些数据源或资产。
- 所需许可权
- 要将数据资产添加,映射和发布到主数据实例中,您必须是 IBM Match 360 服务的 DataEngineer 用户组的成员。
- 如果您正在使用受管目录,那么只能查看或添加您是其数据资产所有者的目录资产。
IBM Match 360 包含强大的自动映射功能,通过该功能,数据工程师无需手动将每个数据列映射到模型中。 自动映射功能可根据数据模型中的对应属性或字段对每个数据列进行检测、分析和分类。 必须先对数据进行概要分析,然后才能运行自动映射。 概要分析会对数据进行分析和分类,以便自动完成映射过程。
仅个人和组织记录类型支持概要分析和自动映射。 对于其他类型的记录,请手动将列映射到数据模型。
在本主题中:
从平面数据文件添加记录数据
要将记录数据从 CSV 或 TSV 数据文件添加到 IBM Match 360 中,请执行以下操作:
在主数据导航菜单中,点击资产图标 "。
在操作栏中,点击添加数据或上传资产到项目图标 "。
从打开的“数据”面板中,选择是通过上载、从项目还是从目录添加数据。 要上载数据文件,请选择 装入。
在本地计算机上,选择 CSV 或 TSV 格式的平面数据文件,然后将其拖至“数据”面板中。 当文件完成上载时,会将该文件添加到资产摘要列表中。
在 "资产 "选项卡上,使用资产汇总表查看新添加资产和系统中其他数据资产的详细信息。
如果您的资产在 资产内容 列中没有任何信息,您必须定义资产包含的数据类型,如特定记录类型。 为每个资产分配正确的内容类型非常重要,这样 IBM Match 360 才能找到最适合数据的数据模型部分。 未定义资产内容类型的资产具有 缺少资产数据类型 状态。 如果不先定义资产的内容类型,就无法映射资产。
要定义资产的内容类型,请从记录资产内容列的下拉列表中选择。 资产状态更改为 Ready-for-mapping 。
如果资产内容列表中没有合适的数据类型,则可能需要自定义数据模型。 有关更多信息,请参阅 定制数据模型。
下一步: 将数据映射到数据模型中
通过项目添加数据或源
您可以通过项目将数据资产,源或连接添加到 IBM Match 360 。
您可以使用 IBM Match 360 作为已连接的数据源或目标。 有关设置和使用 IBM Match 360 连接的信息,请参阅 IBM Match 360 连接。
要装入到 IBM Match 360 中的任何数据资产文件都必须包含受支持类型的文件扩展名,例如 .csv
或 .tsv
。 此需求包含已存在于项目中的资产。 如果项目中的资产名称不包含受支持的文件扩展名,那么当您尝试添加该资产时,该资产名称将显示为灰色。 要编辑项目中资产的名称,请转至项目的 资产 选项卡,选择资产,然后在 关于此资产 面板中编辑名称。
请观看此视频,以了解如何创建连接以及将连接的数据添加的项目中。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 本视频向您演示如何设置与数据源的连接,并将连接的数据添加到项目中。 00:08 如果您将数据存储在数据源中,那么可以从任何项目设置与该数据源的连接。 00:16 从此处,可以向项目添加不同的元素。 00:20 在这种情况下,您想要添加连接。 00:24 您可以创建与 IBM 服务 (例如 IBM Db2 和 Cloud Object Storage) 的新连接,也可以创建与来自第三方 (例如 Amazon , Microsoft 或 Apache) 的服务的新连接。 00:39 您可以根据兼容服务对列表进行过滤。 00:45 您还可以添加在平台级别创建的连接,该连接可以跨项目和目录使用。 00:54 或者,您可以创建与其中一个已供应的 IBM Cloud 服务的连接。 00:59 在这种情况下,请为 Db2 Warehouse on Cloud选择供应的 IBM Cloud 服务。 01:08 如果未预填充凭证,那么您可以从 IBM Cloud 服务启动页面获取实例的凭证。 01:17 首先,测试连接,然后创建连接。 01:25 现在,新连接将显示在数据资产列表中。 01:30 接下来,将已连接的数据资产添加到此项目。 01:37 选择源-在本例中,这是刚刚创建的 Db2 Warehouse on Cloud 连接。 01:43 然后选择模式和表。 01:50 您可以看到这将添加对此连接中的数据的引用,并将其包含在目标项目中。 01:58 提供名称和描述,然后单击 "创建"。 02:06 数据现在显示在数据资产列表中。 02:09 打开数据集以获取预览; 您可以从此处直接移动到优化数据。 02:17 在 Cloud Pak for Data as a Service 文档中查找更多视频。
有关直接向项目中添加数据的更多信息,请参阅向项目中添加数据。
添加数据后,必须将其映射到 IBM Match 360 数据模型中。 有关详细信息,请参阅 将数据映射到数据模型。
将数据映射到数据模型中
必须先映射数据资产,然后才能发布要在 IBM Match 360中使用的数据资产。 资产的每一列都必须映射到相应的数据模型属性或排除在外。
要映射数据资产,您有多个选项:
- 您可以手动映射每个列。
- 您可以借助剖析和自动映射功能映射每一列。
- 您可以应用映射模式。
请记住:要使用 IBM Match 360 的剖析和自动映射功能,您的 IBM Cloud Pak for Data 部署必须包括 IBM Knowledge Catalog。
有关手动映射或使用自动映射的详细信息,请阅读以下程序。 有关应用映射模式的详细信息,请参阅 将映射模式应用于数据资产。
要将数据资产映射到 IBM Match 360 数据模型中:
在 "资产 "摘要屏幕上,单击 "映射"选项卡。
从 "资产" 列表中,单击要映射到系统中的数据资产。
为了帮助您找到要找的资产,您可以根据资产名称进行搜索,也可以根据列数、记录类型、映射状态、发布状态或可用映射模式进行筛选。 单击过滤器图标 "应用过滤器。
您选择的资产中的数据以表格格式显示,其中包含许多行和列。 每列表示一个属性,并且必须映射到数据模型中一个相应的属性类型。 在第一次打开数据源或资产时,每列都标记有未映射标记。
提示: 您可以手动映射每个列 (如果选择) ,但可以通过利用自动映射功能来大大加快映射过程。在绘图详细信息面板中,查看该资产的绘图统计信息。 一目了然,您可以看到该资产中有多少数据列已被映射(如果有的话)。
要对此源或资产启用自动映射,必须先对数据进行概要分析。 单击 配置文件数据。
概要分析会对数据进行分析和分类,以便自动完成映射过程。 概要分析可能需要一段时间才能完成,它可以在后台运行,以便您可以继续工作。 您可能想要开始复查和手动映射部分列。
自动映射永远不会覆盖您已完成的任何手动映射。
剖析完成后,单击 Automap asset。 IBM Match 360 with Watson 会分析数据并自动将尽可能多的列映射到数据模型中。 即使它无法映射特定的列,自动映射功能也可建议一些最有可能的映射选择。
复审自动映射结果。 如果任何映射不正确,或者如果列保持未映射,请正确地手动对其进行映射。 或者,如果不需要特定列,可以通过选择 排除列来排除将其加载到 IBM Match 360 中。
要手动映射列,请选择该列,然后使用映射目标面板以从数据模型中搜索并选择相应的属性或字段。 单击映射并保存到数据模型。
如果数据模型中不存在相应的属性或字段,那么可以从 " 映射目标 " 面板创建一个属性或字段。 单击 New > Create attribute 或 New > Create field 以定义新属性或字段并提供其详细信息。
如果选择创建 简单属性 而不是分配现有属性类型,那么会将新的简单属性直接添加到 建模 选项卡中的记录类型。 它未在 属性类型下进行分类。
水平滚动列,以确保映射数据源或资产中的每一列。 如果未对任何列进行映射,自动映射或从映射中显式排除,那么数据资产仍处于 映射正在进行中 状态。
要排除将列加载到 IBM Match 360 中,请选择列,然后选择 排除列。
重要信息: 如果
record_source
属性映射到资产中的任何字段,那么必须在资产的所有记录中填充该字段。 如果任何记录缺少record_source
字段的值,那么无法成功装入资产。 如果未将record_source
属性映射到现有字段,那么将使用资产名称派生缺省记录源名称。完成数据资产的映射后,即可将数据发布到系统中。
- 如果数据模型是新的或已更改,请首先单击操作栏中的发布模型图标 "来发布模型。 等待发布作业完成。
- 要发布数据,请单击操作栏中的发布数据图标 "。 等待发布作业完成。
通过从导航菜单中选择 配置概述 返回到配置概述页面。
在配置概述页面上,确认您至少有一个添加和映射的数据源或资产。
将映射模式应用于数据资产
映射模式可帮助您通过对兼容资产重复数据映射选择来保持相似数据资产之间的一致性。
手动映射数据资产时,将自动创建映射模式。 该模式会保存列映射选择,以便共享相同列格式和记录类型的其他数据资产可以复用这些选择。 通过应用映射模式,可以避免手动映射与已映射的现有资产相似的数据资产。
IBM Match 360 标识新资产何时与系统中的现有映射模式兼容,然后通知您可以使用模式来避免手动映射工作。
可以通过手动映射数据资产来创建映射模式,也可以使用配置快照来导入这些映射模式。
有关使用配置快照来管理和应用映射模式的信息,请参阅 保存和装入配置快照。
要将映射模式应用于已映射或未映射的数据资产,请执行以下操作:
在 "资产 "摘要屏幕上,单击 "映射"选项卡。
从 "资产" 列表中,找到要对其应用映射模式的一个或多个数据资产。
为帮助您找到所需的资产,您可以根据列数、记录类型、映射状态、发布状态或可用的映射模式,按名称或过滤器进行搜索。 单击过滤器图标 "应用过滤器。
选择要应用映射模式的数据资产。
- 要对单个数据资产应用映射模式,请单击资产名称旁边的 "应用映射模式"图标 "。
- 要将映射模式应用于一个或多个数据资产,请选中资产名称旁边的复选框,然后单击 "资产" 列表中的 应用映射 。 所选数据资产必须共享相同的结构和列格式,才能共享映射模式。
"应用映射模式" 页面显示可用映射模式的列表。 如果该资产有推荐的匹配模式,则其旁边会有一个徽章图标 "。
查看映射模式。 您可以查看映射模式当前应用的其他资产以及适用的记录类型,上次更新日期和原始源。
有关更多详细信息,要相互比较映射模式,请选择主映射模式,然后单击 比较映射模式。 水平滚动浏览模式以将其与您选择的模式进行比较。 在页面上垂直滚动以查看更多详细信息,例如快照详细信息和列映射。
选择要应用于所选数据资产的映射模式,然后单击 下一步。
查看您选择的映射更改。 确认您已选择正确的资产和映射模式。
应用映射模式可以更改资产的记录类型。 请注意不要错误地更改记录类型。 如果不手动重新映射资产,那么无法撤销通过应用映射模式完成的映射更改。
单击 完成 以应用映射模式。
应用映射模式后,即可将数据发布到系统中。
- 如果数据模型是新的或已更改,请首先单击操作栏中的发布模型图标 "来发布模型。 等待发布作业完成。
- 要发布数据,请单击操作栏中的发布数据图标 "。 等待发布作业完成。
从平面数据文件添加关系数据
必须先在数据模型中定义相应的关系类型,然后才能将关系数据资产装入到 IBM Match 360中。 有关详细信息,请参阅 定制数据模型。
关系数据资产将格式化为定界行 (CSV 或 TSV)。 有几个必需的数据列:
- 记录每个关系中双方的标识
- 每个关系中双方的记录类型
- 记录每个关系中双方的源
您可以通过 ETL 过程或使用存储关系的应用程序来手动创建关系数据资产。
要将关系数据从 CSV 或 TSV 数据文件添加到 IBM Match 360 :
在主数据导航菜单中,点击资产图标 "。
将记录数据资产装入,映射和发布到 IBM Match 360。 这些数据资产应包含要使用关系关联的记录数据。 有关详细信息,请参阅 从平面数据文件添加记录数据 和 将数据映射到数据模型。
装入关系数据资产文件:
a. 在操作栏中,单击添加数据或上传资产到项目图标 "。
b. 从打开的“数据”面板中,选择是通过上载、从项目还是从目录添加数据。 要上载数据文件,请选择 装入。
注: 如果数据包含受管目录,那么您可能无法查看或添加某些目录资产。 根据您的许可权,您可能只能查看您拥有或管理的目录资产。c. 在本地计算机上,选择包含 CSV 或 TSV 格式的关系数据的平面数据文件,并将其拖到 "数据" 面板中。 当文件完成上载时,会将该文件添加到资产摘要列表中。
查看新添加的关系资产的详细信息。
将鼠标悬停在资产摘要列表中关系资产的行上,然后单击三点溢出菜单。
单击 设置资产属性。
从 资产数据类别 列表中选择 关系 。
从 资产数据类型 列表中选择正确的关系类型,然后单击 保存。
如果相应的关系类型不在资产数据类型列表中,那么您可能必须定制数据模型。 有关更多信息,请参阅 定制数据模型。
映射并发布关系数据资产。 有关详细信息,请参阅 将数据映射到数据模型。 确保映射每个必需的数据列:
from record ID
,to record ID
,from record type
,to record type
,from record source
和to record source
。限制: 关系数据不支持概要分析和自动映射。 手动将列映射到数据模型。
发布样本数据
如果您没有自己的数据资产可供使用,但想要开始使用 IBM Match 360 服务,请改为装入提供的样本数据和模型。
要加载 IBM Match 360 样本数据:
- 转至主数据主页。
- 从主数据磁贴中,单击发布样本模型。
- 在样本模型发布完成后,单击发布样本数据。
- 也可以选择进入 "作业"页面,查看样本加载作业的进度。 如果您不想观看进度,那么可以转至另一个屏幕,这些作业将继续在后台工作。
后续步骤
了解更多信息
父主题: 配置主数据