Data Refinery 提供有交互式模板,供您编码操作、函数和逻辑运算符。 请从页面顶部的命令行文本框访问这些模板。 这些模板随附交互式帮助,可帮助您使用语法选项。
操作
arrange
排列 (`<column>
`)
按指定列以升序对行进行排序。
排列 (desc (`<column>
`))
按指定列按降序对行排序。
排列 ("<column>
" , "<column>
")
按每个指定的连续列按升序对行进行排序,使先前排序的顺序保持不变。
计数
count ()
按组列出的数据总数。
count (`<column>
`)
按指定列对数据进行分组,并返回具有唯一值的行数 (对于字符串值) 或返回每个组的总计 (对于数字值)。
count (`<column>
` , wt= `<column>
`)
按指定列对数据进行分组,并返回具有唯一值的行数 (对于字符串值) 或返回指定权重列中每个组 (对于数字值) 的总计。
count (`<column>
` , wt=<func>
(`<column>
`))
按指定列对数据分组,并返回应用于指定权重列的函数的结果。
count (`<column>
` , wt=<func>
(`<column>
`) , sort = <logical>
)
按指定列对数据进行分组,并返回应用于指定权重列的函数的结果 (已排序或未排序)。
不同的
distinct ()
根据所有列或指定的列保留不同的唯一行。
过滤器
filter (`<column>
` <logicalOperator>
provide_value)
保留符合指定条件的行并过滤掉所有其他行。
对于布尔列类型,provide_value 应该是大写的 TRUE 或 FALSE。
filter (`<column>
` == <logical>
)
根据逻辑值 TRUE 或 FALSE 保留符合指定过滤条件的行。
filter (<func>
(`<column>
`) <logicalOperator>
provide_value)
保留满足指定条件的行并过滤掉所有其他行。 此条件可对运算符左侧的列应用函数。
filter (`<column>
` <logicalOperator>
<func(column)>
)
保留符合指定条件的行并过滤掉所有其他行。 此条件可对运算符右侧的列应用函数。
filter (<logicalfunc(column)>
)
保留符合指定条件的行,并过滤掉所有其他行。 此条件可对列应用逻辑函数。
filter (`<column>
` <logicalOperator>
provide_value <andor>
`<column>
` <logicalOperator>
provide_value)
保留符合指定条件的行并过滤掉所有其他行。
group_by
group_by (`<column>
`)
根据指定的列对数据进行分组。
group_by (desc (`<column>
`))
根据指定列按降序对数据进行分组。
mutate
mutate (provide_new_column = `<column>
`)
添加新列并保留现有列。
mutate (provide_new_column = <func(column)>
)
使用指定的表达式添加新列,这会将函数应用于列。 保留现有列。
mutate (provide_new_column = case_when (`<column>
` <operator>
provide_value_or_column_to_Compare ~ provide_value_or_column_to_replace , `<column>
` <operator>
provide_value_or_column_to_Compare ~ provide_value_or_column_to_replace , TRUE ~ provide_default_value_or_column))
使用指定的条件表达式添加新列。
mutate (provide_new_column = `<column>
` <operator>
`<column>
`)
使用指定的表达式添加新列,这将对现有列执行计算。 保留现有列。
mutate (provide_new_column = coalesce (`<column>
` , `<column>
`))
使用指定的表达式添加新列,这会将新列中的缺失值替换为另一个指定列中的值。 作为指定另一个列的替代方法,您可以指定一个值、列上的某个函数或者值上的某个函数。 保留现有列。
mutate (provide_new_column = if_else (`<column>
` <logicalOperator>
provide_value , provide_value_for_true , provide_value_for_false))
使用指定的条件表达式添加新列。 保留现有列。
mutate (provide_new_column = `<column>
` , provide_new_column = `<column>
`)
添加多个新列并保留现有列。
mutate (provide_new_column = n ())
对组中的值进行计数。 确保已使用 group_by 进行分组。 保留现有列。
mutate_all
mutate_all (funs (<func>
))
将指定的函数应用于所有列,并覆盖这些列中的现有值。 指定是否移除缺失的值。
mutate_all (funs (. <operator>
provide_value))
将指定的运算符应用于所有列,并覆盖这些列中的现有值。
mutate_all (funs ("provide_value" =。 <operator>
provide_value)
将指定的运算符应用于所有列,并创建新列以保存结果。 提供以指定的值结尾的新列名。
mutate_at
mutate_at (vars (`<column>
`) , funs (<func>
))
将函数应用于指定的列。
mutate_if
mutate_if (<predicateFunc>
, <func>
)
将函数应用于满足指定条件的列。
mutate_if (<predicateFunc>
, funs (. <operator>
provide_value)
将指定的运算符应用于满足指定条件的列。
mutate_if (<predicateFunc>
, funs (<func>
))
将函数应用于满足指定条件的列。 指定是否移除缺失的值。
rename
rename (provide_new_column = `<column>
`)
重命名指定的列。
sample_frac
sample_frac (provide_number_between_0_and_1, weight= `<column>
` , replace=<logical>
)
根据数据百分比生成随机样本。 weight 为可选,表示将选中该行的概率比例。 提供一个数字列。 replace 为可选,缺省值为 FALSE。
sample_n
sample_n (provide_number_of_rows , weight = `<column>
` , replace=<logical>
)
根据多行生成随机数据样本。 weight 为可选,表示将选中该行的概率比例。 提供一个数字列。 replace 为可选,缺省值为 FALSE。
选择
select (`<column>
`)
保留指定的列。
select (-`<column>
`)
除去指定的列。
select (starts_with ("provide_text_value"))
保留名称以指定值开头的列。
select (ends_with ("provide_text_value"))
保留名称以指定值结尾的列。
select (包含 ("provide_text_value"))
保留名称包含指定值的列。
select (匹配 ("provide_text_value"))
保留名称与指定值匹配的列。 指定的值可以是文本或正则表达式。
select (`<column>
`: `<column>
`)
将列保留在指定范围内。 指定从某一列到另一列的范围。
select (`<column>
` , all ())
保留所有列,但使指定的列成为第一列。
select (`<column>
` , `<column>
`)
保留指定的列。
select_if
select_if(<predicateFunc>
)
保留满足指定条件的列。 受支持的函数包括:
- 包含
- ends_with
- matches
- num_range
- starts_with
summarize
summarize (provide_new_column = <func>
(`<column>
`))
将聚集函数应用于指定的列,以将多个列值减少到单个值。 请务必首先使用 group_by 操作对列数据进行分组。
summarize_all
summarize_all (<func>
)
将聚集函数应用于所有列,以将多个列值减少为单个值。 指定是否移除缺失的值。 请务必首先使用 group_by 操作对列数据进行分组。
summarize_all (funs (<func>
))
将多个聚集函数应用于所有列,以将多个列值减少到单个值。 创建新的列以保存结果。 指定是否移除缺失的值。 请务必首先使用 group_by 操作对列数据进行分组。
summarize_if
summarize_if (<predicate_conditions>
, ...)
对满足指定条件的列应用聚集函数,以将多个列的值减少为单个值。 指定是否移除缺失的值。 请务必首先使用 group_by 操作对列数据进行分组。 受支持的函数包括:
- 计数
- max
- 平均数
- min
- 标准偏差 (standard deviation)
- 总和
tally
计数 ()
按组计算行数 (对于字符串列) 或总计数据 (对于数字值)。 请务必首先使用 group_by 操作对列数据进行分组。
计数 (wt = `<column>
`)
计算行数 (对于字符串列) 或按组计算加权列的数据 (对于数字列) 总数。
计数 (wt=<func>
(`<column>
`) ,排序 = <logical>
)
将函数应用于指定的加权列,并按组返回结果,排序或不排序。
top_n
top_n (provide_value)
选择每个组中的前 N 行或后 N 行 (按值)。 指定正整数以选择前 N 行;指定负整数以选择最后 N 行。
top_n (provide_value , `<column>
`)
根据指定的列,选择每个组中的前 N 行或后 N 行 (按值)。 指定正整数以选择前 N 行;指定负整数以选择最后 N 行。
如果重复行影响计数,请先使用 除去重复项 GUI 操作,然后再使用 top_n () 操作。
transmute
传输 (<new_or_existing_column>
= `<column>
`)
添加新列或使用指定的表达式覆盖现有列。 仅保留表达式中提及的列。
传输 (<new_or_existing_column>
= <func(column)>
)
添加新列或通过对指定列应用函数来覆盖现有列。 仅保留表达式中提及的列。
(<new_or_existing_column>
= `<column>
` <operator>
`<column>
`)
添加新列或通过对指定列应用运算符来覆盖现有列。 仅保留表达式中提及的列。
传输 (<new_or_existing_column>
= `<column>
` , <new_or_existing_column>
= `<column>
`)
添加多个新列。 仅保留表达式中提及的列。
传输 (<new_or_existing_column>
= if_else (provide_value , provide_value_for_true , provide_value_for_false))
添加新列或使用指定的条件表达式覆盖现有列。 仅保留表达式中提及的列。
取消分组
ungroup ()
取消对数据的分组。
函数
汇总
- 平均数
- min
- n
- sd
- 总和
逻辑
- is.na
数字
- abs
- coalesce
- 分割
- exp
- 下限 (floor)
文本
- c
- coalesce
- 粘贴
- tolower
- toupper
类型
- as.character
- as.double
- as.integer
- as.logical
逻辑运算符
- <
- <=
- >=
- >
- 之间
- !=
- ==
- %in%
父主题: 优化数据