您可以通过快速将大量原始数据转换为可供分析的高质量可用信息,从而节省数据准备时间。 阅读 Data Refinery 工具,然后观看视频并学习适合初学者且不需要编码的教程。
- 必需服务
- watsonx.aiStudio 或IBM Knowledge Catalog
基本工作流程包含以下任务:
- 创建项目。 项目是您与其他人协作处理数据的地方。
- 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
- 打开 Data Refinery 中的数据。
- 执行通过一系列操作来优化数据的步骤。
- 创建并运行作业以变换数据。
阅读有关 Data Refinery 的内容
使用 Data Refinery 的图形流编辑器清理和定制表格数据。 此外,您还可以使用交互式模板来编码操作、函数和逻辑运算符。 清理数据时,可修复或移除不正确、不完整、格式错误或者重复的数据。 定制数据时,可通过过滤、排序、组合或移除列以及执行操作对其进行定制。
创建 Data Refinery 流作为数据的有序操作集。 Data Refinery 包含一个图形界面,可用于对数据进行概要分析,并对数据以及超过 20 个可定制的图表进行验证,这些可定制图表有助于您了解数据。 保存优化后的数据集时,通常应将其装入到不同于读取位置的位置。 使用此方式可使源数据不受改进过程的影响。
观看有关优化数据的视频
观看此视频以了解如何优化数据。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 此视频显示如何使用 Data Refinery对原始数据进行塑形。 00:05 要开始从项目优化数据,请查看数据资产并在 Data Refinery中将其打开。 00:14 完成优化数据后, "信息" 窗格将包含数据流和数据流输出的名称。 00:23 "数据" 选项卡向您显示数据集中的行和列的样本集。 00:29 为了提高性能,您不会看到整形器中的所有行。 00:33 但请放心,当您完成对数据的优化后,数据流将在完整的数据集上运行。 00:41 "概要文件" 选项卡显示每个列的频率和摘要统计信息。 00:49 "可视化" 选项卡提供您感兴趣的列的数据可视化。 00:57 建议使用的图表在其图标旁边会有一个蓝点。 01:03 使用图表中提供的不同透视图标识数据中的模式、连接和关系。 01:12 现在,我们来进行一些数据角力。 01:17 从简单操作开始,比如对指定的列进行排序-在这种情况下,是 "Year" 列。 01:27 如果您只想关注特定航空公司的延迟,那么可以过滤数据以仅显示唯一承运方为 "United Airlines" 的那些行。 01:47 查看完全延迟将很有帮助。 01:50 您可以通过创建新列来执行此操作,以组合到达和离开延迟。 01:56 请注意,列类型推断为整数。 02:00 选择出发延迟列并使用 "计算" 操作。 02:09 在这种情况下,您将把到达延迟列添加到所选列中,并创建一个新列,名为"TotalDelay"。 02:23 您可以将新列放置在列列表的末尾或原始列旁边。 02:31 应用操作时,新列显示在出发延迟列旁边。 02:38 如果您犯了错误,或者只是决定进行更改,那么只需访问 "步骤" 面板并删除该步骤。 02:46 这将撤销该特定操作。 02:50 您还可以使用重做和撤销按钮。 02:56 接下来,你要关注"TotalDelay"列,这样就可以使用 "select"(选择)操作将该列移到开头。 03:09 该命令会将"TotalDelay"列排在列表的第一位,其他列排在其后。 03:21 接下来,使用 "group_by" 操作按年,月和日将数据划分为组。 03:32 因此,当您选择 ""TotalDelay"列时,您将看到 "年"、"月"、""DayofMonth","和 ""TotalDelay""列。 03:44 最后,您要找出"TotalDelay"列的平均值。 03:48 当您展开 "操作" 菜单时,在 "组织" 部分中,您将找到 "聚集" 操作,其中包括 "平均值" 函数。 04:08 现在你有了一个新列,名为"AverageDelay",表示总延迟的平均值。 04:17 现在,要运行数据流并保存和创建作业。 04:24 提供作业的名称并继续到下一个屏幕。 04:28 "配置" 步骤允许您查看作业运行的输入和输出。 04:36 并选择用于运行作业的环境。 04:41 调度作业是可选的,但您可以设置日期并在需要时重复该作业。 04:51 您可以选择接收此作业的通知。 04:56 一切都好看,所以创建并运行作业。 05:00 这可能需要几分钟时间,因为请记住,数据流将在完整数据集上运行。 05:06 在平均时间内,您可以查看状态。 05:12 当运行为竞争时,您可以返回到项目中的 "资产" 选项卡。 05:20 然后打开 Data Refinery 流以进一步优化数据。 05:28 例如,您可以按降序对"AverageDelay"列进行排序。 05:36 现在,编辑流设置。 05:39 在 "常规" 面板上,可以更改 Data Refinery 流名称。 05:46 在 "源数据集" 面板上,可以编辑源数据集的样本或格式,也可以替换数据源。 05:56 在 "目标数据集" 面板上,可以指定备用位置,例如外部数据源。 06:06 您还可以编辑目标的属性,例如写方式,文件格式以及更改数据集资产名称。 06:21 现在,再次运行数据流; 但这一次,保存并查看作业。 06:28 从列表中选择要查看的作业并运行该作业。 06:41 运行完成后,返回到项目。 06:46 在 "资产" 选项卡上,您将看到所有三个文件: 06:51 原创。 06:54 第一个完善的数据集,显示未排序的"AverageDelay"。 07:02 第二个数据集显示的是按降序排序的"AverageDelay"列。 07:11 返回到 "资产" 选项卡上,有 Data Refinery 流程。 07:19 在 Cloud Pak for Data as a Service 文档中查找更多视频。
尝试利用教程优化数据
在本教程中,您将完成以下任务:
- 任务 1: 打开项目。
- 任务 2: 在 Data Refinery中打开数据集。
- 任务 3: 使用 "概要文件" 和 "可视化" 查看数据。
- 任务 4: 优化数据。
- 任务 5: 运行 Data Refinery 流程的作业。
- 任务 6: 从 Data Refinery 流程创建另一个数据资产。
- 任务 7: 查看数据资产以及项目中的 Data Refinery 流。
完成本教程大约需要 30 分钟。
完成本教程的提示
以下是成功完成本教程的一些提示。
使用视频图片
以下动画图像显示了如何使用视频图片和目录功能:
在社区中获取帮助
如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。
任务 1: 打开项目
您需要一个项目来存储数据和 Data Refinery 流程。 您可以使用现有项目或创建项目。
从导航菜单",选择项目 > 查看所有项目
打开现有项目。 如果要使用新项目:
单击新建项目。
选择创建空项目。
输入项目的名称和可选描述。
选择现有的对象存储服务实例或者创建新的对象存储服务实例。
单击创建。
检查您的进度
下图显示了一个新的空项目。
要获取更多信息或观看视频,请参阅创建项目。
任务 2: 在 Data Refinery 中打开数据集
To preview this task, watch the video beginning at 00:05.
遵循以下步骤将数据资产添加到项目并创建 Data Refinery 流。 您将在本教程中使用的数据集在资源中心中可用。
访问资源中心的航空公司数据。
单击添加到项目。
从列表中选择项目,然后单击 添加。
添加数据集后,单击查看项目。
有关将数据资产从资源中心添加到项目的更多信息,请参阅 在 Notebook 中装入和访问数据。
在 资产 选项卡上,单击 airline-data.csv 数据资产以预览其内容。
单击 准备数据 以在 Data Refinery中打开文件样本,然后等待 Data Refinery 读取并处理数据样本。
关闭 " 信息 " 和 " 步骤 " 面板。
检查您的进度
下图显示了在 Data Refinery中打开的航空公司数据资产。
任务 3: 使用 "概要文件" 和 "可视化" 查看数据
To preview this task, watch the video beginning at 00:47.
资产的内容将根据这些列中的值自动进行概要分析和分类。 执行以下步骤以使用 "概要文件" 和 "可视化" 选项卡来浏览数据。
单击概要文件选项卡查看数据的频率分布,以便您查找离群值。
滚动各列以查看各列的统计信息。 统计信息显示每个列中的四分位距,最小值,最大值,中位数和标准差。
将鼠标悬停在条形上可查看其他详细信息。
下图显示了 "配置文件 "选项卡:
单击直观显示选项卡。
选择要可视化的 UniqueCarrier 列。 建议使用的图表在其图标旁边会有一个蓝点。
单击 饼图 。 使用图表中提供的不同透视图标识数据中的模式、连接和关系。
检查您的进度
下图显示了 "可视化" 选项卡。 现在,您已准备好优化数据。
任务 4: 优化数据
Data Refinery 操作
Data Refinery 可使用两种操作优化数据,即 GUI 操作和编码操作。 您将在本教程中使用这两种类型的操作。
GUI 操作由多个步骤组成。 从 新建步骤中选择操作。 每列的溢出菜单()也提供了图形用户界面操作的子集。
在 Data Refinery 中打开文件时,转换列类型操作会作为第一步自动应用,以将任何非字符串数据类型转换为推断的数据类型(例如,转换为整数、日期、布尔值等)。 您可以撤销或编辑此步骤。
编码操作是用于对操作、函数和逻辑运算符进行编码的交互式模板。 大多数操作都提供交互式帮助。 单击命令行文本框中的操作名称可查看编码操作及其语法选项。
To preview this task, watch the video beginning at 01:16.
优化数据是构建 Data Refinery 流的一系列步骤。 完成此任务时,请查看 " 步骤 " 面板以了解进度。 可以选择要删除或编辑的步骤。 如果您犯了错误,也可以点击 "撤消"图标 "。 遵循以下步骤来优化数据:
返回至数据选项卡。
选择年列。 单击溢出菜单()并选择降序排序。
单击 步骤 以在 " 步骤 " 面板中查看新步骤。
关注特定航空公司的延迟情况。 本教程使用的是联合航空公司 (UA),您可以选用任何航空公司。
单击 新建步骤,然后选择 GUI 操作 过滤器。
选择唯一客运航空公司列。
对于运算符,选择等于。
对于值,输入要查看延迟信息的航空公司的字符串。 例如,'
UA
.
单击应用。 滚动到 UniqueCarrier 列以查看结果。
新建一个将抵达延迟时间和起飞延迟时间相加的列。
选择 DepDelay 列。
请注意,要将值为数字的所有列中的“字符串”数据类型转换为“整数”数据类型,转换列类型操作将自动用作第一步。
单击 新建步骤,然后选择 GUI 操作 计算。
对于运算符,选择加号。
选择 列,然后选择 ArrDelay 列。
选择新建结果列。
对于新列名,键入 '
TotalDelay
.
您可以将新列放置在列列表的末尾或原始列旁边。 在本例中,选择 下一步到原始列。
单击应用。 添加了新列TotalDelay。
将新的 TotalDelay 列移至数据集的开头:
在命令行文本框中,选择 select 操作。
单击单词 select,然后选择 select(`
<column>
`, everything())。单击
`<column>`
,然后选择 TotalDelay 列。 完成后,命令应该如下所示:select(`TotalDelay`, everything())
单击应用。 TotalDelay 列现已位于第一列。
将数据减少至四列:Year、Month、DayofMonth 和 TotalDelay。 使用 group_by 编码操作将列分为年组、月组和日组。
在命令行文本框中,选择 group_by 操作。
单击
<column>
,然后选择 Year 列。在右括号之前,输入:
,Month,DayofMonth
。 完成后,命令应该如下所示:group_by(`Year`,Month,DayofMonth)
单击应用。
将 select 编码操作用于 TotalDelay 列。 在命令行文本框中,选择 select 操作。
单击<column>
,然后选择 TotalDelay 列。 命令应该如下所示:select(`TotalDelay`)
单击应用。 现在,定制的数据由 Year、Month、DayofMonth 和 TotalDelay 列组成。
下面的屏幕图像显示了前四行数据。
显示 TotalDelay 列值的平均值,并创建新的 AverageDelay 列:
单击 新建步骤,然后选择 GUI 操作 聚集。
对于 列,选择 TotalDelay。
对于 运算符,选择 平均值。
对于汇总列的名称,键入 '
AverageDelay
.
单击应用。
新列 AverageDelay 是所有延迟时间的平均值。
检查您的进度
下图显示了数据的前四行。
任务 5: 运行 Data Refinery 流程的作业
To preview this task, watch the video beginning at 04:16.
运行 Data Refinery 流的作业时,将对整个数据集运行这些步骤。 选择运行时并添加一次性或重复调度。 Data Refinery 流的输出将添加到项目中的数据资产。 执行以下步骤以运行作业来创建优化数据集。
从Data Refinery工具栏单击作业图标,然后选择保存并创建作业。
输入作业的名称和描述,然后单击下一步。
选择运行时环境,然后单击下一步。
(可选)单击切换按钮以安排运行。 指定日期、时间以及是否希望重复运行作业,然后单击下一步。
(可选)打开此作业的通知,然后单击下一步。
查看详细信息,然后单击 "创建并运行"立即运行作业。
创建作业时,单击通知中的 作业详细信息 链接以查看项目中的作业。 或者,您可以浏览至项目中的作业选项卡,然后单击要打开的作业名称。
当作业的 状态 为 已完成时,请使用项目导航跟踪以返回到项目中的 资产 选项卡。
单击 数据> 数据资产 部分以查看 Data Refinery 流 airline-data_shaped.csv的输出。
单击 流> Data Refinery 流 部分以查看 Data Refinery 流 airline-data.csv_flow。
检查您的进度
下图显示了带有 Data Refinery 流程和形状的资产的 "资产" 选项卡。
任务 6: 从 Data Refinery 流程创建另一个数据资产
To preview this task, watch the video beginning at 05:26.
执行以下步骤以通过编辑 Data Refinery 流来进一步优化数据集:
单击 airline-data.csv_flow 以在 Data Refinery中打开流。
按降序对 AverageDelay 列进行排序。
选择 AverageDelay 列。
单击列溢出菜单(),然后选择降序排序。
点击流程设置图标 "。
单击 目标数据集 面板。
单击 编辑属性。
在格式化目标属性对话框中,将数据资产名称更改为 "
airline-data_sorted_shaped.csv
.
单击 保存 以返回到流设置。
单击 应用 以保存设置。
从Data Refinery工具栏中,单击作业图标并选择保存和查看作业。
选择航空公司数据的作业,然后单击查看。
从作业窗口工具栏中,单击运行作业图标。
检查您的进度
下图显示了已完成的作业详细信息。
任务 7: 查看项目中的数据资产和 Data Refinery 流程
To preview this task, watch the video beginning at 06:40.
现在遵循以下步骤来查看三个数据资产,即原始数据集,第一个优化数据集和第二个优化数据集:
当作业完成时,转至项目页面。
单击“资产”选项卡。
在数据资产部分中,您将看到上载的原始数据集和两个 Data Refinery 流的输出。
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
单击 航空公司-data_csv_形状 数据资产以查看未排序的平均延迟。 返回到 资产 选项卡。
单击 airline-data_sorted_shaped.csv 数据资产可查看按降序排序的延误时间均值。 返回到 资产 选项卡。
单击 流> Data Refinery 流 部分将显示 Data Refinery 流:
airline-data.csv_flow
。
检查您的进度
下图显示了 "资产" 选项卡,其中显示了所有资产。
后续步骤
现在数据已准备就绪,可供使用。 例如,您或其他用户可以执行以下任何任务:
其他资源
查看更多有关 Data Refinery 的视频。
在资源中心查找样本数据集,获取完善数据的实践经验。
试试Data Refinery的附加教程:收集、清理和增强您的数据"。
父主题: 快速入门教程