Data Refinery 支持以下类别的 GUI 操作。
单击 新建步骤 以选择 GUI 操作。
操作的子集可从每个列的 溢出 图标 中获取。 您可以通过单击列标题中的 编辑 图标 来重命名列。
清理
转换列类型
在 Data Refinery中打开文件时,如果 转换列类型 操作在数据中检测到任何非字符串数据类型,那么会自动作为第一步应用该操作。 数据类型将自动转换为推断的数据类型。 要更改所选列的自动转换,请单击步骤的 溢出 图标 ,然后选择 编辑。 与任何其他操作一样,您可以撤销此步骤。 每次在 Data Refinery 中打开该文件时,都会重新应用转换列类型操作。 需要时,仅对基于文件的数据源应用自动转换操作。 (不适用于通过数据库连接的数据源。)
要确认将每个列的数据转换为何种数据类型,请从 溢出 图标 中选择 编辑 以查看数据类型。 该信息包含日期或时间戳记数据的格式。
如果数据转换为整数或十进制数据类型,您可以为所有适用列指定小数符号和千位分组符号。 转换为十进制数据类型的字符串使用点表示小数符号,并使用逗号表示千位分组符号。 或者,可以选择逗号作为小数符号,并选择点或定制符号作为千位分组符号。 小数符号与千位分组符号不得相同。
从左到右读取源数据,直至遇到终止符或无法识别的字符为止。 例如,如果要将字符串数据 12,834
转换为十进制,并且未指定逗号 (,) 的处理方式,那么数据将截断为 12
。 类似地,如果源数据中包含多个点 (.),并且您选择点作为小数符号,那么第一个点将用作小数分隔符,第二个点后面的数字将截断。 源字符串 1.834.230,000
将转换为值 1.834
。
转换列类型操作会自动转换下列日期和时间戳记格式:
- 日期:
ymd
和ydm
- 时间戳记:
ymdHMS
、ymdHM
、ydmHMS
和ydmHM
日期和时间戳记字符串必须使用四位数字作为年份。
您可以手动应用转换列类型操作,以更改 Data Refinery 流中任何点上的列数据类型。 您可以新建一列来保存此操作的结果,也可以覆盖现有列。
提示: 列的数据类型确定可以使用的操作。 更改数据类型可影响与该列相关的操作。
视频:“转换列类型”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “转换列类型”操作自动将第一列从字符串转换为整数。 我们更改其他三列的数据类型。
- 要将欧洲列的数据类型从字符串更改为小数,请选择该列,然后编辑“转换列类型”操作步骤。
- 要将欧洲列的数据类型从字符串更改为小数,请选择该列,然后编辑“转换列类型”操作步骤。
- 选择小数。
- 该列使用逗号定界符,因此选择逗号 (,) 作为小数符号。
- 选择下一列 DATETIME。 选择时间戳记和格式。
- 单击 Apply(应用)。
- 这些列现在是整数、小数、日期和时间戳记数据类型。“步骤”面板中的“转换列类型”步骤会更新。
将列值转换为缺失值
如果选定列中的值与指定列中的值匹配或与指定值匹配,那么将这些值转换为缺失值。
视频:“将列值转换为缺少值”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 如果所选列中的值与指定列中的值匹配,或者,如果它们与指定的值匹配,那么“将列值转换为缺少值”操作就会将该列中的值转换为缺少值。
- 缺少值相当于 SQL NULL,是没有值的字段。 它与零值或包含空格的值不同。
- 如果您认为将该数据表示为缺少值更好,可使用“将列值转换为缺少值”操作。 例如,如果希望在“替换缺少值”操作或“过滤”操作中使用缺少值时。
- 我们根据匹配值使用“将列值转换为缺少值”操作,以将值更改为缺少值。
- 请注意,DESC 列包含许多具有值 CANCELLED ORDER 的行。 我们将 CANCELLED ORDER 字符串转换为缺少值。
- “将列值转换为缺少值”操作位于“清理”类别下。
- 输入要替换为缺少值的字符串。
- 先前的 CANCELLED ORDER 值现在为缺少值。
抽取日期或时间值
从具有日期或时间戳记数据类型的列中抽取日期或时间值的所选部分。
视频:“抽取日期或时间值”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “抽取日期或时间值”操作会从日期或时间戳记数据类型的列中抽取日期或时间值的选定部分。
- DATE 列是字符串数据类型。 首先,使用“转换列类型”操作,将其转换为日期数据类型。
- 从 DATE 列的菜单中选择“转换列类型”操作。 选择“日期”。
- 选择一种日期格式。
- DATE 列现在是日期数据类型。
- 在将字符串数据类型转换为日期数据类型时,将使用 ISO 日期格式。 例如,字符串 01/08/2018 被转换为日期 2018-01-08。
- 现在,我们可将日期中的年份部分抽取到新列中。
- “抽取日期或时间值”操作位于“清理”类别下。
- 为要抽取的日期部分选择“年份”,并为新列名输入 YEAR。
- 这样 DATE 列的年份部分就会出现在新列 YEAR 中。
- “步骤”面板会显示“抽取日期或时间值”操作。
过滤器
按所选列过滤行。 保存具有所选列值的行;过滤掉所有其他行。
对于这些字符串 Filter 运算符,请勿将值括在引号中。 如果值包含引号,请使用斜杠字符对其进行转义。 例如: \"text\"
:
- 包含
- 不包含
- 开始内容为
- 开头不是
- END WITH
- 结尾不是
以下是数字,字符串和布尔值 (逻辑) 以及日期和时间戳记列的运算符:
运算符 | 数值 | 字符串 | 布尔值 | 日期和时间戳记 |
---|---|---|---|---|
包含 | ✓ | |||
不包含 | ✓ | |||
结尾不是 | ✓ | |||
开头不是 | ✓ | |||
结尾为 | ✓ | |||
介于两个数字之间 | ✓ | |||
为空 | ✓ | ✓ | ✓ | |
等于 | ✓ | ✓ | ✓ | |
为 false | ✓ | |||
大于 | ✓ | ✓ | ||
大于或等于 | ✓ | ✓ | ||
处于 | ✓ | ✓ | ||
小于 | ✓ | ✓ | ||
小于或等于 | ✓ | ✓ | ||
不为空 | ✓ | ✓ | ✓ | |
不等于 | ✓ | ✓ | ✓ | |
不处于 | ✓ | ✓ | ||
不为空 | ✓ | |||
为空 | ✓ | ✓ | ||
为 true | ✓ | |||
开始内容为 | ✓ |
视频:过滤操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 使用过滤操作,按所选列过滤行。 可在一个过滤操作中应用多个条件。
- 可使用正则表达式,过滤掉除 Emp ID 列中字符串以 8 开头的行以外的所有行。
- 按州的两个缩写字母过滤行。
- 单击 Apply(应用)。 这样,表中只包含 Emp ID 以 8 开头并且位于 AR 或 TX 州的行。
- 现在,这些行已按 AR 和 PA 过滤。 “步骤”面板中的“过滤”步骤会更新。
除去列
除去所选列。
视频: "除去列" 操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 使用 "除去列" 操作可快速从数据资产中除去列。
- 除去列的最快方法是从列的菜单中进行操作。
- “步骤”面板中会显示已除去列的名称。
- 除去另一列。
- “步骤”面板中会显示已除去列的名称。
除去重复项
除去具有重复列值的行。
视频:“移除重复项”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “移除重复项”操作将移除具有重复列值的行。
- 这个数据集有 43 行。 APPLYCODE 列中的许多行具有重复值。 我们希望精简该数据集,确保 APPLYCODE 列中的每个值只出现一次。
- 从 APPLYCODE 列的菜单中选择“移除重复项”操作。
- "除去重复项" 操作已除去重复值的每次出现。 该数据集现在为 4 行。
除去空行
除去对所选列具有空白值或缺失值的行。
视频:“移除空行”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “移除空行”操作将移除所选列为空白或缺少值的行。
- 缺少值相当于 SQL NULL,是没有值的字段。 它与零值或包含空格的值不同。
- 这个数据集有 43 行。 TRACK 列中的许多行都缺少值。 我们希望精简该数据集,确保 TRACK 列中的每一行都有值。
- 从 TRACK 列的菜单中选择“移除空行”操作。
- “移除空行”操作将移除 TRACK 列为空白或缺少值的行。 该数据集现在为 21 行。
替换缺失值
将列中的缺失值替换为指定值,或替换为同一行中指定列中的值。
视频:“替换缺少值”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “替换缺少值”操作将用指定的值替换列中的缺少值,或用指定列中同一行的值进行替换。
- STATE 列的许多行都包含空值。 我们希望将这些空值替换为字符串。
- “替换缺少值”操作位于“清理”类别下。
- 对于 STATE 列,将缺少值替换为字符串 Incomplete。
- 现在缺少值具有值 Incomplete。
- “步骤”面板会显示“替换缺少值”操作。
替换子串
将指定的子串替换为指定的文本。
视频:“替换子串”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “替换子串”操作将子串替换为所指定的文本。
- DECLINE 列有许多包含字符串 BANC 的行。 我们希望将此字符串替换为 BANK。
- “替换子串”操作位于“类别”类别下。
- 输入要替换的字符串和替换字符串。
- 所有出现的字符串 BANC 都已替换为 BANK。
- “步骤”面板会显示“替换子串”操作。
替换
通过将随机字符串替换为所选列中的实际数据,从视图中隐藏敏感信息。
视频:替代操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 替换操作通过用随机字符串替换所选列中的数据,以屏蔽敏感信息。
- 替换列中数据的最快方法是从列的菜单中选择“替换”。
- “步骤”面板中会显示“替换”操作。
- 替换另一列中的值。
- “步骤”面板中会显示第二个替换操作。
文本
文本操作只能应用于字符串列。 您可以创建新列来保存运算结果,或可以覆盖现有列。
文本> 折叠空格
将文本中的多个连续空格折叠为单个空格。
文本> 并置字符串
将任何字符串链接到文本。 您可以在文本前面添加字符串和/或在文本后面追加字符串。
文本> 小写
将文本转换为小写。
文本> 字符数
返回文本中的字符数。
文本> 填充字符
使用指定字符串填充文本。 指定是在左侧、右侧,还是左右两侧填充文本。
文本> 子串
根据从指定位置开始并具有指定长度的文本创建子串。
文本> 标题案例
将文本转换为标题案例。
文本> 三引号
从文本中除去单引号或双引号。
文本> 删除空格
从文本中除去前导空格,尾部空格和额外空格。
文本> 大写
将文本转换为大写。
视频:文本操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 可对字符串列应用文本操作。 可为结果创建新的列,或覆盖现有列。
- 首先,将一个字符串与 WORD 列中的值合并。
- 可用的文本操作。
- 将字符串与右侧的值合并,附加一个空格,然后输入 up。
- 这样 WORD 列中的值会附加一个空格和单词 up。
- “步骤”面板中会显示“文本”操作。
- 接下来,用一个字符串补足 ANIMAL 列中的值。
- 在右侧使用 & 符号补足 ANIMAL 列中值的长度,使其满足最少 7 个字符的要求。
- ANIMAL 列中的值会使用 & 符号进行补足,以便每个字符串至少有 7 个字符。
- 请注意,值 oposum、pangolin、platypus 和 hedgehog 没有补足字符,因为这些字符串的长度不少于 7 个字符。
- 接下来,使用子字符串除去 ID 列中的 t 字符。
- 选择位置 2 以从该位置开始添加新字符串。 选择长度为 4,以使字符串的长度为 4 个字符。
- 在 NEW-ID 列中,已除去 ID 列中的第一个 t 字符。
计算
计算
使用另一列或指定值执行计算。 运算符为:
- 加法
- 除法
- 求幂
- 介于两个数字之间
- 等于
- 大于
- 大于或等于
- 小于
- 小于或等于
- 不等于
- 模数
- 乘法
- 减法
视频:计算操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 计算操作执行某列与另一列或指定值的计算(例如加减法)。
- 选择列以开始计算。
- 可用计算
- 现在选择第二列以进行加法计算。
- 然后应用更改。
- 标识列会更新,“步骤”面板将显示已完成的操作。
- 还可从列的菜单访问操作。
- 这一次,选择“介于两个数字之间”。 指定范围,并为结果创建新的列。
- 这样表中会显示新列,“步骤”面板中会显示新的计算操作。
- 这一次,选择“等于”以比较两列,并为结果创建新列。
- 这样表中会显示新列,“步骤”面板中会显示新的计算操作。
数学
数学运算只能应用于数字列。 您可以创建新列来保存运算结果,或可以覆盖现有列。
数学> 绝对值
获取数字的绝对值。
示例:4 和 -4 的绝对值均为 4。
数学> 弧余弦
获取角度的弧余弦。
数学> 上限
获取更大值的最接近整数,也称为数字的上限。
示例: 2.31 的上限为 3。 -2.31 的上限为 -2。
数学> 指数
获取以列值为幂的数字。
数学> 楼层
获取较小值的最接近整数,也称为数字的楼层。
示例: 2.31 的楼层为 2。 -2.31 的下限为 -3。
数学> 四舍五入
获取最接近列值的整数。 如果列值是整数,返回该值。
数学> 平方根
获取列值的平方根。
视频:数学操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 对列中的值应用数学操作。 可为结果创建新的列,或覆盖现有列。
- 可用的数学操作
- 对列的值应用绝对值。
- 为结果创建新列。
- 新列将添加到表中,“步骤”面板中会显示“数学”操作。
- 还可从列的菜单访问此操作。
- 对 ANGLE 列的值应用舍入。
- 为结果创建新的列。
- 新列将添加到表中,“步骤”面板中会显示新的“数学”操作。
整理
汇总
将汇总计算应用于一个或多个列的值。 每个聚集会新建一列。 您可选择性地选择按列分组,以按另一个用于定义组特征(例如,部门或标识)的列将新列分组。 可以按多列进行分组。 可以在单次操作中组合多个聚集。
可用的聚集操作取决于数据类型。
数字数据:
- 对唯一值进行计数
- 最小值
- 最大值
- 总和
- 标准偏差
- 平均值
字符串数据:
- 组合行值
- 对唯一值进行计数
视频:汇总操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 汇总操作对一列或多列的值应用汇总计算。 每个聚集会新建一列。
- 可用的汇总操作取决于数据是数字数据还是字符串数据。
- 可用的运算符取决于列的数据类型。 数字数据的可用运算符。
- 选中 UniqueCarrier 文本列后,会看到可用于字符串数据的运算符。
- 我们将计算 UniqueCarrier 列中有多少个唯一值。 这个汇总操作将显示该数据集中有多少家航空公司。
- 在新的 Airlines 列中共有 22 家航空公司。 将删除其他列。
- “步骤”面板中会显示“汇总”操作。
- 首先显示数字数据的汇总。
- 显示到达延误的平均值。
- 所有到达延误的平均值位于新的 MeanArrDelay 列中。 将删除其他列。
- 还可以按定义组特征的另一列对汇总列进行分组。
- 通过添加“按选择分组”,编辑“汇总”步骤,这样就可以按各个航空公司查看平均到达延误时间。
- 按 UniqueCarrier 列对结果进行分组。
- 现在,按航空公司对平均到达延误时间进行了分组。
- “步骤”面板会显示“汇总”操作。
并置
并置两列或更多列的值。
视频:合并操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 合并操作用于合并两列或更多列的值。
- 合并操作位于“组织”类别下。
- 选择要合并的列。
- 选择要在合并的值之间使用的分隔符。
- 为合并值输入列名。
- 新列可以显示为数据集中最右边的列,也可以显示为原始列旁边的列。
- 保留原始列,并应用更改。
- 新的 DATE 列使用分号分隔符显示从其他三列合并的值。
- “步骤”面板中会显示“合并”操作。
- DATE 列是字符串数据类型。 首先,使用“转换列类型”操作,将其转换为日期数据类型。
- 从 DATE 列的菜单中选择“转换列类型”操作。 选择“日期”。
- 选择日期格式,并为结果创建新的列。
- 将新列放在原始列旁边,然后应用更改。
- 新列会显示转换后的日期格式。
- “步骤”面板中会显示“转换列类型”操作。
- 在将字符串数据类型转换为日期数据类型时,将使用 ISO 日期格式。 例如,字符串 2004;2;3 被转换为日期 2004-02-03。
条件替换
根据条件替换列中的值。
视频:“有条件替换”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 可使用“有条件替换”操作,根据条件替换列中的值。
- 首先,指定条件以替换 CODE 字符串列中的数据,并为结果创建新列。
- 字符串数据的可用条件运算符。
- 添加第一个条件“CONDITION 1: CODE Is equal to value C replace with COMPLETE”(如果 CODE 等于值 C,则替换为 COMPLETE)。
- 添加第二个条件“CONDITION 2: CODE Is equal to value I replace with INCOMPLETE”(如果 CODE 等于值 I,则替换为 IMCOMPLETE)。
- 指定如何处理不符合条件的任何值。 在这里,我们输入两个双引号,用于表示空字符串。
- 为结果创建新的列。
- 新列 STATUS 显示来自 CODE 列的有条件替换。
- “步骤”面板中会显示“有条件替换”操作。
- 接下来,指定条件以替换 INPUT 整数列中的数据,并为结果创建新列。
- 数字数据的可用条件运算符。
- 添加第一个条件“CONDITION 1: INPUT Is less than or equal to value 3 replace with value LOW”(如果 INPUT 小于或等于值 3,则替换为 LOW)。
- 添加第二个条件“CONDITION 2: INPUT Is in values 4,5,6 replace with value MED”(如果 INPUT 等于值 4、5 或 6,则替换为 MED)。
- 添加第三个条件“CONDITION 3: INPUT Is greater than or equal to value 7 replace with value HIGH”(如果 INPUT 大于或等于 7,则替换为 HIGH)。
- 指定如何处理不符合条件的任何值。
- 为结果创建新的列。
- 新列 RATING 显示来自 INPUT 列的有条件替换。
- “步骤”面板中会显示“有条件替换”操作。
连接
根据对指定键列中的值的比较,组合来自两个数据集的数据。 指定要执行的连接类型,在两个数据集中选择要比较的列(连接键),以及在生成的数据集中选择您需要的列。
这两个数据集中的连接键列必须是兼容的数据类型。 如果连接操作是您添加的第一步,请检查在Data Refinery中打开文件时,转换列类型操作是否已自动转换第一个数据集中连接键列的数据类型。 此外,根据 连接 操作在 Data Refinery 流中的位置,您可以使用 转换列类型 操作来确保连接键列的数据类型匹配。 单击 " 步骤 " 面板中的先前步骤以查看该步骤的快照视图。
连接类型包括:
连接类型 | 描述 |
---|---|
左连接 | 返回原始数据集中的所有行,并且仅返回连接数据集中的匹配行。 针对连接数据集中的每一个匹配行,返回原始数据集中的一行。 |
右连接 | 返回连接数据集中的所有行,并且仅返回原始数据集中的匹配行。 针对原始数据集中的每一个匹配行,返回连接数据集中的一行。 |
内连接 | 仅返回各数据集中与其他数据集中的行匹配的行。 针对连接数据集中的每一个匹配行,返回原始数据集中的一行。 |
完全连接 | 返回两个数据集中的所有行。 将原始数据集中的行与连接数据集中的匹配行混合。 |
半连接 | 仅返回原始数据集中与连接数据集中的行匹配的行。 针对连接数据集中的所有匹配行,返回原始数据集中的一行。 |
反连接 | 仅返回原始数据集中与连接数据集中的行不匹配的行。 |
视频:连接操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- customers.csv 数据集包含有关贵公司客户的信息,sales.csv 数据集包含有关贵公司销售代表的信息。
- 这两个数据集共享 SALESREP_ID 列。
- Customers.csv 数据集在 Data Refinery 中打开。
- 连接操作可以根据对 SALESREP_ID 列中值的比较,组合来自这两个数据集的数据。
- 您希望执行内部连接,以仅返回每个数据集中与另一数据集中的行匹配的行。
- 可添加定制后缀,以附加至两个数据集中都存在的列,以查看该列的源数据集。
- 选择要与 customers.csv 数据集连接的 sales.csv 数据集。
- 对于连接键,开始输入列名以查看已过滤的列表。 SALESREP_ID 列将两个数据集链接起来。
- 接下来,选择要包括的列。 重复的列将显示附加的后缀。
- 现在应用更改。
- “步骤”面板中会显示“连接”操作。
- 现在,通过 customers.csv 和 sales.csv 数据集中的列,充实了该数据集。
重命名列
重命名所选列。
视频: "重命名列" 操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 使用 "重命名列" 操作可快速重命名列。
- 重命名列的最快方法是在表中编辑列的名称。
- 编辑名称,然后按键盘上的 Enter 键。
- "重命名" 列步骤显示旧名称和新名称。
- 现在重命名另一列。
- “步骤”面板会显示:BANKS 列已重命名为 DOGS。
- 现在重命名最后一列。
- “步骤”面板会显示:RATIOS 列已重命名为 BIRDS。
样本
使用下列其中一种方法生成数据子集。 只有在流程运行过程中,从 UI 操作中采样的步骤才适用。
- 随机样本:子集的每个数据记录有相等的选中概率。
- 分层样本:将数据划分为一个或多个称为层的子组。 然后,生成一个随机样本,其中包含每个子组的数据。
视频:样本操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 样本操作用于生成数据的子集。
- 如果拥有大量数据,并希望使用代表性的样本更快地制作原型,则可使用样本操作。
- 样本操作位于 ORGANIZE 类别中。
- 选择两种方法之一,创建样本。
- 使用随机样本,每行都有一个相等的概率包含在样本数据中。
- 可按行数或数据的百分比来选择随机样本。
- 分层样本基于随机样本。 与随机样本一样,可指定样本中的数据量(行数或百分比)。
- 通过分层样本,可以将数据分成一个或多个名为 strata 的子组。 然后,生成一个包含每个子组的定制数据的随机样本。
- 对于“方法”,如果选择“自动”,那么会为该层选择一列。
- 如果选择“手动”,需指定一个或多个层,并为每个层指定用于定义其中行数的过滤条件。
- 在这个航空公司的数据示例中,我们创建两个层。 一个层定义 50% 的输出,以包含纽约市的目的地机场;而第二个层定义剩余的 50%,以包含指定的飞行距离。
- 在“指定该层的详细信息”框中,输入代表第一层中所指定条件的样本的百分比。 层百分比必须总和必须为 100%。
- 字符串数据的可用运算符。
- 50% 的样本包含纽约市的目的地机场。
- 单击“保存”以保存第一个层。
- 第一个层标识为 Strata0,具有一个条件。 在此层中,50% 的样本必须满足条件。
- 在“指定该层的详细信息”框中,输入代表第二层中所指定条件的样本的百分比。
- 数字数据的可用运算符。
- 50% 的样本表示飞行距离大于 500 的航班。
- 单击“保存”以保存第二个层。
- 第二个层标识为 Strata1,具有一个条件。 在此层中,50% 的样本必须满足条件。
- 如果使用多个层,那么样本操作会在内部应用过滤器操作,对层使用 OR 条件。 根据数据、条件和样本的大小,使用具有多个条件的一个层的结果可能与使用多个层的结果不同。
- 与其他 Data Refinery 操作不同,样本操作仅在创建和运行 Data Refinery 流作业后才会更改数据集。
- “步骤”面板中会显示“样本”操作。
- 该数据集现在超过 10000 行。
- 为 Data Refinery 流保存并创建作业。
- 新资产文件会添加到项目中,作为 Data Refinery 流的输出。
- 查看输出文件。
- 在 Dest 列中有 10 行(50% 的样本)表示纽约市的机场;Distance 列中有 17 行表示距离大于 500。
- 之所以产生这样的结果,是因为对层应用了 OR 条件,对于第一层中指定的条件,存在重叠的数据,因此行由包含纽约市机场的 Dest 列和距离大于 500 的Distance 列进行过滤。
- Data Refinery 中的输出文件显示缩小的规模。
升序排序
按所选列升序对表中的所有行进行排序。
降序排序
按所选列对表中的所有行进行降序排序。
视频: 排序操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 可通过对所选列中的行进行排序,快速对数据集中的所有行进行排序。
- 对列排序的最快方法是从列的菜单中进行操作。
- 可按升序或降序对行排序。
- 按升序排序。
- 表中所有行的顺序按第一列的排序操作进行更新。
- “步骤”面板中会显示“排序”操作。
- 按降序排序。
- 表中所有行的顺序按第二列的排序操作更改。
- “步骤”面板中会显示第二个排序操作。
- 按升序排序。
- 表中所有行的顺序按第三列的排序操作更改。
- “步骤”面板中会显示第三个排序操作。
拆分列
按非字母数字字符,位置,模式或文本拆分列。
视频:“拆分列”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “拆分列”操作基于非字母数字字符、文本、模式或位置,将一列拆分成两列或更多列。
- 首先,将 YMD 列拆分成 YEAR、MONTH 和 DAY 列。
- "拆分" 列操作位于 ORGANIZE 类别中。
- 首先,选择要拆分的 YMD 列。
- 这个选项卡提供了用于拆分列的四个方法选项。
- DEFAULT 使用列值中的任何非字母数字字符来拆分列。
- 在 TEXT中,可选择一个字符或输入文本以拆分该列。
- 在 PATTERN 中,可输入基于 R 语法的正则表达式,以确定拆分该列的位置。
- 在 POSITION 中,指定要拆分列的位置。
- 我们想用星号 (*) 拆分 YMD 列,它是非字母数字字符,因此我们选择 DEFAULT 选项卡。
- 将 YMD 列拆分成三个新列 - YEAR、MONTH 和 DAY。
- 三个新列 YEAR、MONTH 和 DAY 会添加到数据集中。
- “步骤”面板中会显示“拆分列”操作。
- 接下来将 FLIGHT 列拆分成两列 - 一列表示航空公司代码,一列表示航班号。 因为航空公司代码是两个字符,所以我们可以按位置对列进行拆分。
- 单击 POSITION 选项卡,然后在 Positions 框中输入 2。
- 将 FLIGHT 列拆分成两个新列 - AIRLINE 和 FLIGHTNBR。
- 新列 AIRLINE 和 FLIGHTNBR 会添加到数据集中。
- “步骤”面板中会显示“拆分列”操作。
联合
组合来自共享相同模式的两个数据集的行并过滤掉重复项。 如果选中允许不同数目的列,并允许重复值,那么操作是 UNION ALL
命令。
视频:并集操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 并集操作将两个数据集中的行组合起来,以共享同一模式。
- 这个数据集具有四列六行。 数据类型从左到右为字符串、字符串、小数和字符串。
- 在将数据集加载到 Data Refinery 时,“自动转换列类型”操作会自动将 PRICE 列转换为小数数据类型。
- 第二个数据集中的列必须与此数据集中的数据类型兼容。
- 选择要与当前数据集组合的数据集。
- 预览新数据集时,可以看到它还有四列。 但是,PRICE 列是字符串数据类型。
- 在应用并集操作之前,需要删除“自动转换列类型”步骤,以确保 PRICE 列与新数据集中的 PRICE 列具有相同的数据类型(字符串)。
- PRICE 列现在是字符串数据。
- 现在重复联合操作。
- 这样新数据集就添加到了当前数据集。 该数据集增加到 12 行。
- “步骤”面板中会显示“并集”操作。
- 现在,添加具有不同列数的数据集。 匹配的列仍必须是兼容的数据类型。
- 选择要与当前数据集组合的数据集。
- 预览新数据集时,可以看到它比原始数据集多一列。 第五列是 TYPE。
- 选择“允许列数不同并允许重复值”。
- 应用并集操作。
- 这样新数据集就添加到了当前数据集。 该数据集增加到 18 行。
- 额外的一列 TYPE 已添加到数据集中。
- “步骤”面板中会显示“并集”操作。
联合 操作的提示: 如果接收到有关不兼容模式的错误,请检查自动 转换列类型 操作是否更改了第一个数据集的数据类型。 请删除转换列类型步骤并重试。
自然语言
除去停用词 除去英语语言的常用词,例如 "the" 或 "and"。 对于文本分析算法和模型,通常情况下,停用词几乎没有语义值。 移除停用词可减少数据量,并可提高用于训练机器学习模型的数据的质量。
可选:要确认已移除的单词,请在所选列上应用令牌解析操作(按单词),然后在概要文件选项卡中查看单词的统计信息。 在 Data Refinery 流程中,稍后可以撤销记号化步骤。
视频:“移除非索引字”操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- “移除非索引字”操作从数据集中移除常见的英语单词。 对于文本分析算法和模型,通常情况下,停用词几乎没有语义值。 移除非索引字可减少数据量,并可提高数据的质量。
- 移除非索引字操作会移除以下单词:a、an、and、are、as、at、be、but、by、for、from、if、in、into、is、it、no、not、of、on、or、such、that、the、their、then、there、these、they、this、to、was、will、with。
- “除去非索引字”操作位于“自然语言”类别下。
- 选择 STRING 列。
- 单击“应用”以移除非索引字。
- 这样就从 STRING 列中移除非索引字。
- “步骤”面板中会显示“移除非索引字”操作。
记号化
将英语文本分为单词,句子,段落,行,字符或正则表达式。
视频:标记化操作
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频抄本
- 标记化操作将英文文本细分为单词、句子、段落、行、字符,或者按正则表达式细分。
- 标记化操作位于“自然语言”类别下。
- 选择 STRING 列。
- 可用的标记化选项。
- 创建名为 WORDS 的新列。
- 这样标记化操作就采用 STRING 列中的单词,并创建新列 WORDS,每个单词一行。
- “步骤”面板中会显示“标记化”操作。
父主题: 优化数据