Data Refinery 流程是一组有序的步骤,用于清理、修整和强化数据。 当您通过 应用操作 对数据集 优化数据 时,您可以动态构建定制的 Data Refinery 流,您可以实时修改该流并将其保存以供将来使用。
以下是在优化数据时可以执行的操作:
使用 Data Refinery 流
步骤
使用数据集
项目页面上的操作
- 重新打开 Data Refinery 流以继续使用
- 复制 Data Refinery 流
- 删除 Data Refinery 流
- 将 Data Refinery 流提升到空间
- 导出带有项目资产的 Data Refinery 流量数据
使用 Data Refinery 流程
保存 Data Refinery 流
单击 Data Refinery 工具栏中的 Save Data Refinery flow 图标 保存 Data Refinery 流程。 Data Refinery 流程将保存到您正在处理的项目。 保存 Data Refinery 流,以便稍后可继续优化数据集。
Data Refinery 流的缺省输出将保存为数据资产 source-file-name_shaped.csv。 例如,如果源文件为 mydata.csv
,那么 Data Refinery 流的缺省名称和输出为 mydata_csv_shaped
。 您可以通过 更改 Data Refinery 流程的目标来编辑名称和添加扩展。
运行或调度 Data Refinery 流的作业
Data Refinery 支持大型数据集,大型数据集可能非常耗时且难以优化。 为了让您快速高效地工作,Data Refinery 会对该数据集中的行样本子集执行操作。 样本大小是 1 MB 或 10,000 行,以先达到者为准。 运行 Data Refinery 流的作业时,将处理整个数据集。 运行该作业时,请选择运行时,并可以添加一次性调度或重复调度。
在 Data Refinery 中,从 Data Refinery 工具栏单击 Jobs 图标 ,然后选择 Save and create a job 或 Save and view jobs。
保存 Data Refinery 流程之后,还可以从“项目”页面为该流程创建作业。 转到 Assets 选项卡,选择 Data Refinery 流程,从 Overflow 图标 中选择 New job。
您必须具有管理员或编辑者角色,才能查看作业详细信息或者编辑或运行该作业。 通过项目的 查看者 角色,您只能查看作业详细信息。
有关作业的更多信息,请参阅 在 Data Refinery中创建作业。
重命名 Data Refinery 流
在 Data Refinery 工具栏上,打开 Info 窗格 。 或单击流程设置图标,转到常规选项卡。
步骤
撤销或重做步骤
单击工具栏上的 Undo 图标 或 Redo 图标 。
编辑,复制,插入或删除步骤
在步骤窗格中,单击要更改的操作步骤上的 Overflow 图标 。 选择操作 (编辑, 复制, 在前面插入步骤, 在后面插入步骤或 删除)。
如果选择 编辑,那么 Data Refinery 将进入编辑方式,并在命令行或 "操作" 窗格中显示要编辑的操作。 应用已编辑的操作。
如果选择 复制,那么将在所选步骤之后插入复制的步骤。
复制 操作不可用于 连接 或 联合 操作。
Data Refinery 更新 Data Refinery 流以反映更改并重新运行所有操作。
在 "Snapshot 视图" 中查看 Data Refinery 流步骤
要查看任意时间点的数据状况,请单击先前步骤,以将 Data Refinery 置于快照视图中。 例如,如果单击 数据源,那么在开始对其进行优化之前,您将看到数据的样子。 单击任何操作步骤可查看应用相应操作后的数据情况。 要离开快照视图,请单击 查看第 x 步 (共 y 步) 或单击您选择进入快照视图的同一步骤。
将 Data Refinery 流数据导出到 CSV 文件
单击工具栏上的 Export 图标 将 Data Refinery 流程中当前步骤的数据导出到 CSV 文件,而无需保存或运行 Data Refinery 流程作业。 例如,如果要快速输出正在进行的 Data Refinery 流,请使用此选项。 导出数据时,将在 Data Refinery 流程中的当前步骤创建 CSV 文件并将其下载到计算机的 Downloads 文件夹 (或用户指定的下载位置)。 如果您位于 快照视图中,那么 CSV 文件的输出位于您单击的步骤中。 如果您正在查看数据的样本 (子集) ,那么输出中将仅包含样本数据。
如果您的 CSV 文件在输入字段中包含任何恶意有效载荷(例如公式),这些项目可能会被执行。
您还可以通过导出项目资产来导出 Data Refinery 流程。 有关详细信息,请参阅 导出项目资产。
使用数据集
更改 Data Refinery 流的源
更改 Data Refinery 流的源。 运行的 Data Refinery 流相同,但源数据集不同。 可以通过两种方法来更改源:
在步骤窗格中单击数据源旁边的溢出图标',选择编辑,然后选择不同的源数据集。
在流设置中: 如果要在同一位置更改多个数据源,那么可以使用此方法。 例如,对于 "连接" 或 "联合" 操作。 在工具栏上,点击流程设置图标 "。 转到源数据集选项卡,点击数据源旁边的溢出图标 "。 选择 替换数据源,然后选择其他源数据集。
要获取最佳结果,新数据集的模式应该与原始数据集的模式兼容(例如,列名称、列数和数据类型)。 如果新数据集具有不同的模式,那么无法使用该模式的操作将显示错误。 您可以编辑或删除这些操作,或者将源模式更改为兼容性较好的模式。
如果为目标选择连接,则只能使用 Data Refinery支持的数据源列表中的连接。
编辑样本大小
对 Data Refinery 流运行作业时,将对完整数据集执行操作。 但是,在 Data Refinery中以交互方式应用操作时,根据数据集的大小,仅查看数据样本。
增大样本大小以查看更接近 Data Refinery 流作业结果的结果,但请注意,在 Data Refinery中查看结果可能需要更长时间。 最大行数为 10,000 行或 1 MB (以先到者为准)。 减小样本大小以更快地查看结果。 根据数据的大小以及操作的数量和复杂性,您可能希望使用样本大小进行试验,以了解最适合数据集的内容。
在工具栏上,点击流程设置图标 "。 转到源数据集选项卡,单击数据源旁边的溢出图标 ",然后选择编辑样本。
编辑源属性
可用属性取决于数据源。 不同的属性可用于数据资产和不同类型的连接中的数据。 仅当推断的文件格式不正确时,才更改文件格式。 如果更改文件格式,那么将使用新格式读取源,但源文件保持不变。 更改格式源属性可能是一个迭代过程。 请在应用选项后检查数据。
在工具栏上,点击流程设置图标 "。 转到源数据集选项卡,单击数据源旁边的溢出图标 ",然后选择编辑格式。
更改 Data Refinery 流的目标
缺省情况下, Data Refinery 的目标将保存为您正在处理的项目中的数据资产。
要更改目标位置,请单击工具栏上的流程设置图标 "。 转至 目标数据集 选项卡,单击 选择目标,然后选择其他目标位置。
如果为目标选择连接,则只能使用 Data Refinery支持的数据源列表中的连接。 其中一些连接只能用作Data Refinery流程的源。
编辑目标属性
可用属性取决于数据源。 不同的属性可用于数据资产和不同类型的连接中的数据。
要更改目标数据集的属性,请单击工具栏上的流程设置图标 "。 转至 目标数据集 选项卡,然后单击 编辑属性。
更改 Data Refinery 流目标的名称
目标数据集的名称包含在您编辑目标属性时可以更改的字段中。
缺省情况下, Data Refinery 的目标将保存为项目中的数据资产 source-file-name_shaped.csv 。 例如,如果源是 mydata.csv
,那么 Data Refinery 流的缺省名称和输出是数据资产 mydata_csv_shaped
。
不同的属性和命名约定适用于来自连接的目标数据集。 例如,如果数据集位于 Cloud Object Storage中,那么会在 存储区 和 文件名 字段中标识数据集。 如果数据集位于 Db2 数据库中,那么将在 模式名称 和 表名称 字段中标识数据集。
更多信息,请参阅目标连接选项。
项目页面上的操作
重新打开 Data Refinery 流以继续使用
要重新打开 Data Refinery 流并继续优化数据,请转至项目的资产选项卡。 在 " 资产类型" 下,展开 流,单击 Data Refinery 流。 单击 Data Refinery 流名称。
复制 Data Refinery 流
要创建 Data Refinery 流的副本,请转至项目的 资产 选项卡,展开 流,然后单击 Data Refinery 流。 选择Data Refinery流程,然后从溢出图标 "中选择复制。 Data Refinery 流将作为 "Original-Name Copy 1" 添加到 Data Refinery 流列表中。
删除 Data Refinery 流
要删除 Data Refinery 流,请转至项目的 资产 选项卡,展开 流,然后单击 Data Refinery 流。 选择Data Refinery流程,然后从溢出图标 "中选择删除。
将 Data Refinery 流程提升到空间
部署空间用于在与项目分离的环境中管理一组相关资产。 您使用空间为watsonx.aiRuntime 的部署作业准备数据。 您可将 Data Refinery 流程从多个项目提升至单个空间。 因为 Data Refinery 流程在空间中不可编辑,请先在 Data Refinery 流程中完成这些步骤,然后再提升该流程。
要将 Data Refinery 流提升到空间,请转至项目的 资产 选项卡,展开 流,然后单击 Data Refinery 流。 选择 Data Refinery 流。 单击Data Refinery流程的溢出图标 ",然后选择 "推广"。 该 Data Refinery 流程的源文件以及任何其他从属数据也会提升。
要为空间中的 "Data Refinery流程创建或运行作业,请转到空间的 "资产选项卡,向下滚动到 "Data Refinery流程,然后从 "溢出图标 "单击 "新工作图标 "。 如果已创建作业,请转至 作业 选项卡以编辑作业或查看作业运行详细信息。 修整后的 Data Refinery 流程作业输出会显示在空间的资产选项卡上。 您必须具有管理员或编辑者角色,才能查看作业详细信息或者编辑或运行该作业。 项目的查看者角色只能查看作业详细信息。 您可以在watsonx.aiRuntime 中将成型输出作为作业的输入数据。
在将 Data Refinery 流程从项目提升到空间,并且该 Data Refinery 流程的目标是已连接数据资产时,必须手动提升该已连接数据资产。 此操作可确保在空间中运行 Data Refinery 流作业时更新已连接数据资产的数据。 否则,成功运行该 Data Refinery 流程作业会在该空间中创建新的数据资产。
有关空间的更多信息,请参阅部署空间。
导出带有项目资产的 Data Refinery 流量数据
您还可以通过导出项目资产来导出 Data Refinery 流程。 有关详细信息,请参阅 导出项目资产。
父主题: 优化数据