0 / 0
Go back to the English version of the documentation
快速入门:优化数据
Last updated: 2024年11月28日
快速入门:优化数据

您可以通过快速将大量原始数据转换为可供分析的高质量可用信息,从而节省数据准备时间。 阅读 Data Refinery 工具,然后观看视频并学习适合初学者且不需要编码的教程。

必需服务
watsonx.aiStudio 或IBM Knowledge Catalog

基本工作流程包含以下任务:

  1. 创建项目。 项目是您与其他人协作处理数据的地方。
  2. 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
  3. 打开 Data Refinery 中的数据。
  4. 执行通过一系列操作来优化数据的步骤。
  5. 创建并运行作业以变换数据。

阅读有关 Data Refinery 的内容

使用 Data Refinery 的图形流编辑器清理和定制表格数据。 此外,您还可以使用交互式模板来编码操作、函数和逻辑运算符。 清理数据时,可修复或移除不正确、不完整、格式错误或者重复的数据。 定制数据时,可通过过滤、排序、组合或移除列以及执行操作对其进行定制。

创建 Data Refinery 流作为数据的有序操作集。 Data Refinery 包含一个图形界面,可用于对数据进行概要分析,并对数据以及超过 20 个可定制的图表进行验证,这些可定制图表有助于您了解数据。 保存优化后的数据集时,通常应将其装入到不同于读取位置的位置。 使用此方式可使源数据不受改进过程的影响。

阅读有关优化数据的更多信息

观看有关优化数据的视频

观看视频 观看此视频以了解如何优化数据。

此视频提供了一种可视方法来学习本文档中的概念和任务。

  • 视频脚本
    时间 脚本
    00:00 此视频显示如何使用 Data Refinery对原始数据进行塑形。
    00:05 要开始从项目优化数据,请查看数据资产并在 Data Refinery中将其打开。
    00:14 完成优化数据后, "信息" 窗格将包含数据流和数据流输出的名称。
    00:23 "数据" 选项卡向您显示数据集中的行和列的样本集。
    00:29 为了提高性能,您不会看到整形器中的所有行。
    00:33 但请放心,当您完成对数据的优化后,数据流将在完整的数据集上运行。
    00:41 "概要文件" 选项卡显示每个列的频率和摘要统计信息。
    00:49 "可视化" 选项卡提供您感兴趣的列的数据可视化。
    00:57 建议使用的图表在其图标旁边会有一个蓝点。
    01:03 使用图表中提供的不同透视图标识数据中的模式、连接和关系。
    01:12 现在,我们来进行一些数据角力。
    01:17 从简单操作开始,比如对指定的列进行排序-在这种情况下,是 "Year" 列。
    01:27 如果您只想关注特定航空公司的延迟,那么可以过滤数据以仅显示唯一承运方为 "United Airlines" 的那些行。
    01:47 查看完全延迟将很有帮助。
    01:50 您可以通过创建新列来执行此操作,以组合到达和离开延迟。
    01:56 请注意,列类型推断为整数。
    02:00 选择出发延迟列并使用 "计算" 操作。
    02:09 在这种情况下,您将把到达延迟列添加到所选列中,并创建一个新列,名为"TotalDelay"。
    02:23 您可以将新列放置在列列表的末尾或原始列旁边。
    02:31 应用操作时,新列显示在出发延迟列旁边。
    02:38 如果您犯了错误,或者只是决定进行更改,那么只需访问 "步骤" 面板并删除该步骤。
    02:46 这将撤销该特定操作。
    02:50 您还可以使用重做和撤销按钮。
    02:56 接下来,你要关注"TotalDelay"列,这样就可以使用 "select"(选择)操作将该列移到开头。
    03:09 该命令会将"TotalDelay"列排在列表的第一位,其他列排在其后。
    03:21 接下来,使用 "group_by" 操作按年,月和日将数据划分为组。
    03:32 因此,当您选择 ""TotalDelay"列时,您将看到 "年"、"月"、""DayofMonth","和 ""TotalDelay""列。
    03:44 最后,您要找出"TotalDelay"列的平均值。
    03:48 当您展开 "操作" 菜单时,在 "组织" 部分中,您将找到 "聚集" 操作,其中包括 "平均值" 函数。
    04:08 现在你有了一个新列,名为"AverageDelay",表示总延迟的平均值。
    04:17 现在,要运行数据流并保存和创建作业。
    04:24 提供作业的名称并继续到下一个屏幕。
    04:28 "配置" 步骤允许您查看作业运行的输入和输出。
    04:36 并选择用于运行作业的环境。
    04:41 调度作业是可选的,但您可以设置日期并在需要时重复该作业。
    04:51 您可以选择接收此作业的通知。
    04:56 一切都好看,所以创建并运行作业。
    05:00 这可能需要几分钟时间,因为请记住,数据流将在完整数据集上运行。
    05:06 在平均时间内,您可以查看状态。
    05:12 当运行为竞争时,您可以返回到项目中的 "资产" 选项卡。
    05:20 然后打开 Data Refinery 流以进一步优化数据。
    05:28 例如,您可以按降序对"AverageDelay"列进行排序。
    05:36 现在,编辑流设置。
    05:39 在 "常规" 面板上,可以更改 Data Refinery 流名称。
    05:46 在 "源数据集" 面板上,可以编辑源数据集的样本或格式,也可以替换数据源。
    05:56 在 "目标数据集" 面板上,可以指定备用位置,例如外部数据源。
    06:06 您还可以编辑目标的属性,例如写方式,文件格式以及更改数据集资产名称。
    06:21 现在,再次运行数据流; 但这一次,保存并查看作业。
    06:28 从列表中选择要查看的作业并运行该作业。
    06:41 运行完成后,返回到项目。
    06:46 在 "资产" 选项卡上,您将看到所有三个文件:
    06:51 原创。
    06:54 第一个完善的数据集,显示未排序的"AverageDelay"。
    07:02 第二个数据集显示的是按降序排序的"AverageDelay"列。
    07:11 返回到 "资产" 选项卡上,有 Data Refinery 流程。
    07:19 在 Cloud Pak for Data as a Service 文档中查找更多视频。

尝试利用教程优化数据

在本教程中,您将完成以下任务:

完成本教程大约需要 30 分钟。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



任务 1: 打开项目

您需要一个项目来存储数据和 Data Refinery 流程。 您可以使用现有项目或创建项目。

  1. 导航菜单"导航菜单,选择项目 > 查看所有项目

  2. 打开现有项目。 如果要使用新项目:

    1. 单击新建项目

    2. 选择创建空项目

    3. 输入项目的名称和可选描述。

    4. 选择现有的对象存储服务实例或者创建新的对象存储服务实例。

    5. 单击创建

检查点图标检查您的进度

下图显示了一个新的空项目。

下图显示了一个新的空项目。

要获取更多信息或观看视频,请参阅创建项目




任务 2: 在 Data Refinery 中打开数据集

预览教程视频 To preview this task, watch the video beginning at 00:05.

遵循以下步骤将数据资产添加到项目并创建 Data Refinery 流。 您将在本教程中使用的数据集在资源中心中可用。

  1. 访问资源中心的航空公司数据

  2. 单击添加到项目

  3. 从列表中选择项目,然后单击 添加

  4. 添加数据集后,单击查看项目

    有关将数据资产从资源中心添加到项目的更多信息,请参阅 在 Notebook 中装入和访问数据

  5. 资产 选项卡上,单击 airline-data.csv 数据资产以预览其内容。

  6. 单击 准备数据 以在 Data Refinery中打开文件样本,然后等待 Data Refinery 读取并处理数据样本。

  7. 关闭 " 信息 " 和 " 步骤 " 面板。

检查点图标检查您的进度

下图显示了在 Data Refinery中打开的航空公司数据资产。

下图显示了在 Data Refinery中打开的航空公司数据资产。




任务 3: 使用 "概要文件" 和 "可视化" 查看数据

预览教程视频 To preview this task, watch the video beginning at 00:47.

资产的内容将根据这些列中的值自动进行概要分析和分类。 执行以下步骤以使用 "概要文件" 和 "可视化" 选项卡来浏览数据。

提示: 使用 "概要文件" 和 "可视化" 页面在优化数据时查看数据中的更改。
  1. 单击概要文件选项卡查看数据的频率分布,以便您查找离群值。

    1. 滚动各列以查看各列的统计信息。 统计信息显示每个列中的四分位距,最小值,最大值,中位数和标准差。

    2. 将鼠标悬停在条形上可查看其他详细信息。

    下图显示了 "配置文件 "选项卡:
    概要文件选项卡

  2. 单击直观显示选项卡。

    1. 选择要可视化的 UniqueCarrier 列。 建议使用的图表在其图标旁边会有一个蓝点。

    2. 单击 饼图 。 使用图表中提供的不同透视图标识数据中的模式、连接和关系。

检查点图标检查您的进度

下图显示了 "可视化" 选项卡。 现在,您已准备好优化数据。

"可视化" 选项卡




任务 4: 优化数据

Data Refinery 操作

Data Refinery 可使用两种操作优化数据,即 GUI 操作编码操作。 您将在本教程中使用这两种类型的操作。

  • GUI 操作由多个步骤组成。 从 新建步骤中选择操作。 每列的溢出菜单(溢出菜单)也提供了图形用户界面操作的子集。

    在 Data Refinery 中打开文件时,转换列类型操作会作为第一步自动应用,以将任何非字符串数据类型转换为推断的数据类型(例如,转换为整数、日期、布尔值等)。 您可以撤销或编辑此步骤。

  • 编码操作是用于对操作、函数和逻辑运算符进行编码的交互式模板。 大多数操作都提供交互式帮助。 单击命令行文本框中的操作名称可查看编码操作及其语法选项。

预览教程视频 To preview this task, watch the video beginning at 01:16.

优化数据是构建 Data Refinery 流的一系列步骤。 完成此任务时,请查看 " 步骤 " 面板以了解进度。 可以选择要删除或编辑的步骤。 如果您犯了错误,也可以点击 "撤消"图标 "撤销。 遵循以下步骤来优化数据:

  1. 返回至数据选项卡。

  2. 选择列。 单击溢出菜单(溢出菜单)并选择降序排序

  3. 单击 步骤 以在 " 步骤 " 面板中查看新步骤。

  4. 关注特定航空公司的延迟情况。 本教程使用的是联合航空公司 (UA),您可以选用任何航空公司。

    1. 单击 新建步骤,然后选择 GUI 操作 过滤器

    2. 选择唯一客运航空公司列。

    3. 对于运算符,选择等于

    4. 对于,输入要查看延迟信息的航空公司的字符串。 例如,'UA.
      过滤操作

    5. 单击应用。 滚动到 UniqueCarrier 列以查看结果。

  5. 新建一个将抵达延迟时间和起飞延迟时间相加的列。

    1. 选择 DepDelay 列。

    2. 请注意,要将值为数字的所有列中的“字符串”数据类型转换为“整数”数据类型,转换列类型操作将自动用作第一步。

    3. 单击 新建步骤,然后选择 GUI 操作 计算

    4. 对于运算符,选择加号

    5. 选择 ,然后选择 ArrDelay 列。

    6. 选择新建结果列

    7. 对于新列名,键入 'TotalDelay.
      计算操作

    8. 您可以将新列放置在列列表的末尾或原始列旁边。 在本例中,选择 下一步到原始列

    9. 单击应用。 添加了新列TotalDelay

  6. 将新的 TotalDelay 列移至数据集的开头:

    1. 在命令行文本框中,选择 select 操作。

    2. 单击单词 select,然后选择 select(`<column>`, everything())

    3. 单击 `<column>`,然后选择 TotalDelay 列。 完成后,命令应该如下所示:

      select(`TotalDelay`, everything())
      
    4. 单击应用TotalDelay 列现已位于第一列。

  7. 将数据减少至四列:YearMonthDayofMonthTotalDelay。 使用 group_by 编码操作将列分为年组、月组和日组。

    1. 在命令行文本框中,选择 group_by 操作。

    2. 单击 <column>,然后选择 Year 列。

    3. 在右括号之前,输入:,Month,DayofMonth。 完成后,命令应该如下所示:

      group_by(`Year`,Month,DayofMonth)
      
    4. 单击应用

    5. select 编码操作用于 TotalDelay 列。 在命令行文本框中,选择 select 操作。
      单击 <column>,然后选择 TotalDelay 列。 命令应该如下所示:

      select(`TotalDelay`)
      
    6. 单击应用。 现在,定制的数据由 YearMonthDayofMonthTotalDelay 列组成。

      下面的屏幕图像显示了前四行数据。
      Data Refinery流程的前四行包括年、月、月DayofMonth,和TotalDelay列

  8. 显示 TotalDelay 列值的平均值,并创建新的 AverageDelay 列:

    1. 单击 新建步骤,然后选择 GUI 操作 聚集

    2. 对于 ,选择 TotalDelay

    3. 对于 运算符,选择 平均值

    4. 对于汇总列的名称,键入 'AverageDelay.
      聚集操作

    5. 单击应用

      新列 AverageDelay 是所有延迟时间的平均值。

检查点图标检查您的进度

下图显示了数据的前四行。

以下屏幕图像显示数据的前四行。




任务 5: 运行 Data Refinery 流程的作业

预览教程视频 To preview this task, watch the video beginning at 04:16.

运行 Data Refinery 流的作业时,将对整个数据集运行这些步骤。 选择运行时并添加一次性或重复调度。 Data Refinery 流的输出将添加到项目中的数据资产。 执行以下步骤以运行作业来创建优化数据集。

  1. 从Data Refinery工具栏单击作业图标,然后选择保存并创建作业
    保存并创建作业

  2. 输入作业的名称和描述,然后单击下一步

  3. 选择运行时环境,然后单击下一步

  4. (可选)单击切换按钮以安排运行。 指定日期、时间以及是否希望重复运行作业,然后单击下一步

  5. (可选)打开此作业的通知,然后单击下一步

  6. 查看详细信息,然后单击 "创建并运行"立即运行作业。
    创建作业

  7. 创建作业时,单击通知中的 作业详细信息 链接以查看项目中的作业。 或者,您可以浏览至项目中的作业选项卡,然后单击要打开的作业名称。

  8. 当作业的 状态已完成时,请使用项目导航跟踪以返回到项目中的 资产 选项卡。

  9. 单击 数据> 数据资产 部分以查看 Data Refinery 流 airline-data_shaped.csv的输出。

  10. 单击 流> Data Refinery 流 部分以查看 Data Refinery 流 airline-data.csv_flow

检查点图标检查您的进度

下图显示了带有 Data Refinery 流程和形状的资产的 "资产" 选项卡。

下图显示了带有 Data Refinery 流程和形状资产的 "资产" 选项卡。




任务 6: 从 Data Refinery 流程创建另一个数据资产

预览教程视频 To preview this task, watch the video beginning at 05:26.

执行以下步骤以通过编辑 Data Refinery 流来进一步优化数据集:

  1. 单击 airline-data.csv_flow 以在 Data Refinery中打开流。

  2. 按降序对 AverageDelay 列进行排序。

    1. 选择 AverageDelay 列。

    2. 单击列溢出菜单(溢出菜单),然后选择降序排序

  3. 点击流程设置图标 "流设置

  4. 单击 目标数据集 面板。

  5. 单击 编辑属性

    1. 格式化目标属性对话框中,将数据资产名称更改为 "airline-data_sorted_shaped.csv.
      已更改输出文件名

    2. 单击 保存 以返回到流设置。

  6. 单击 应用 以保存设置。

  7. 从Data Refinery工具栏中,单击作业图标并选择保存和查看作业
    保存并查看作业

  8. 选择航空公司数据的作业,然后单击查看

  9. 作业窗口工具栏中,单击运行作业图标。
    run jobS

检查点图标检查您的进度

下图显示了已完成的作业详细信息。

下图显示了已完成的作业详细信息。




任务 7: 查看项目中的数据资产和 Data Refinery 流程

预览教程视频 To preview this task, watch the video beginning at 06:40.

现在遵循以下步骤来查看三个数据资产,即原始数据集,第一个优化数据集和第二个优化数据集:

  1. 当作业完成时,转至项目页面。

  2. 单击“资产”选项卡

  3. 数据资产部分中,您将看到上载的原始数据集和两个 Data Refinery 流的输出。

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. 单击 航空公司-data_csv_形状 数据资产以查看未排序的平均延迟。 返回到 资产 选项卡。

  5. 单击 airline-data_sorted_shaped.csv 数据资产可查看按降序排序的延误时间均值。 返回到 资产 选项卡。

  6. 单击 流> Data Refinery 流 部分将显示 Data Refinery 流: airline-data.csv_flow

检查点图标检查您的进度

下图显示了 "资产" 选项卡,其中显示了所有资产。

下图显示了 "资产" 选项卡,其中显示了所有资产。



后续步骤

现在数据已准备就绪,可供使用。 例如,您或其他用户可以执行以下任何任务:

其他资源

父主题: 快速入门教程

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more