0 / 0
Go back to the English version of the documentation
Data Refinery 中的交互式代码模板
Last updated: 2024年10月07日
Data Refinery 中的交互式代码模板

Data Refinery 提供有交互式模板,供您编码操作、函数和逻辑运算符。 请从页面顶部的命令行文本框访问这些模板。 这些模板随附交互式帮助,可帮助您使用语法选项。

重要信息: 支持用户界面中的操作和功能。 如果从开放式源代码库插入其他操作或函数,那么 Data Refinery 流程会可能失败。 请参阅命令行帮助,确保使用模板中的操作或函数列表。 使用模板中的示例根据需要进一步定制语法。

操作

arrange

排列 (`<column>`)
按指定列以升序对行进行排序。

排列 (desc (`<column>`))
按指定列按降序对行排序。

排列 ("<column>" , "<column>")
按每个指定的连续列按升序对行进行排序,使先前排序的顺序保持不变。

计数

count ()
按组列出的数据总数。

count (`<column>`)
按指定列对数据进行分组,并返回具有唯一值的行数 (对于字符串值) 或返回每个组的总计 (对于数字值)。

count (`<column>` , wt= `<column>`)
按指定列对数据进行分组,并返回具有唯一值的行数 (对于字符串值) 或返回指定权重列中每个组 (对于数字值) 的总计。

count (`<column>` , wt=<func>(`<column>`))
按指定列对数据分组,并返回应用于指定权重列的函数的结果。

count (`<column>` , wt=<func>(`<column>`) , sort = <logical>)
按指定列对数据进行分组,并返回应用于指定权重列的函数的结果 (已排序或未排序)。

不同的

distinct ()
根据所有列或指定的列保留不同的唯一行。

过滤器

filter (`<column>` <logicalOperator> provide_value)
保留符合指定条件的行并过滤掉所有其他行。
对于布尔列类型,provide_value 应该是大写的 TRUE 或 FALSE。

filter (`<column>` == <logical>)
根据逻辑值 TRUE 或 FALSE 保留符合指定过滤条件的行。

filter (<func>(`<column>`) <logicalOperator> provide_value)
保留满足指定条件的行并过滤掉所有其他行。 此条件可对运算符左侧的列应用函数。

filter (`<column>` <logicalOperator> <func(column)>)
保留符合指定条件的行并过滤掉所有其他行。 此条件可对运算符右侧的列应用函数。

filter (<logicalfunc(column)>)
保留符合指定条件的行,并过滤掉所有其他行。 此条件可对列应用逻辑函数。

filter (`<column>` <logicalOperator> provide_value <andor> `<column>` <logicalOperator> provide_value)
保留符合指定条件的行并过滤掉所有其他行。

group_by

group_by (`<column>`)
根据指定的列对数据进行分组。

group_by (desc (`<column>`))
根据指定列按降序对数据进行分组。

mutate

mutate (provide_new_column = `<column>`)
添加新列并保留现有列。

mutate (provide_new_column = <func(column)>)
使用指定的表达式添加新列,这会将函数应用于列。 保留现有列。

mutate (provide_new_column = case_when (`<column>` <operator> provide_value_or_column_to_Compare ~ provide_value_or_column_to_replace , `<column>` <operator> provide_value_or_column_to_Compare ~ provide_value_or_column_to_replace , TRUE ~ provide_default_value_or_column))
使用指定的条件表达式添加新列。

mutate (provide_new_column = `<column>` <operator> `<column>`)
使用指定的表达式添加新列,这将对现有列执行计算。 保留现有列。

mutate (provide_new_column = coalesce (`<column>` , `<column>`))
使用指定的表达式添加新列,这会将新列中的缺失值替换为另一个指定列中的值。 作为指定另一个列的替代方法,您可以指定一个值、列上的某个函数或者值上的某个函数。 保留现有列。

mutate (provide_new_column = if_else (`<column>` <logicalOperator> provide_value , provide_value_for_true , provide_value_for_false))
使用指定的条件表达式添加新列。 保留现有列。

mutate (provide_new_column = `<column>` , provide_new_column = `<column>`)
添加多个新列并保留现有列。

mutate (provide_new_column = n ())
对组中的值进行计数。 确保已使用 group_by 进行分组。 保留现有列。

mutate_all

mutate_all (funs (<func>))
将指定的函数应用于所有列,并覆盖这些列中的现有值。 指定是否移除缺失的值。

mutate_all (funs (. <operator> provide_value))
将指定的运算符应用于所有列,并覆盖这些列中的现有值。

mutate_all (funs ("provide_value" =。 <operator> provide_value)
将指定的运算符应用于所有列,并创建新列以保存结果。 提供以指定的值结尾的新列名。

mutate_at

mutate_at (vars (`<column>`) , funs (<func>))
将函数应用于指定的列。

mutate_if

mutate_if (<predicateFunc><func>)
将函数应用于满足指定条件的列。

mutate_if (<predicateFunc>, funs (. <operator> provide_value)
将指定的运算符应用于满足指定条件的列。

mutate_if (<predicateFunc>, funs (<func>))
将函数应用于满足指定条件的列。 指定是否移除缺失的值。

rename

rename (provide_new_column = `<column>`)
重命名指定的列。

sample_frac

sample_frac (provide_number_between_0_and_1, weight= `<column>` , replace=<logical>)
根据数据百分比生成随机样本。 weight 为可选,表示将选中该行的概率比例。 提供一个数字列。 replace 为可选,缺省值为 FALSE。

sample_n

sample_n (provide_number_of_rows , weight = `<column>` , replace=<logical>)
根据多行生成随机数据样本。 weight 为可选,表示将选中该行的概率比例。 提供一个数字列。 replace 为可选,缺省值为 FALSE。

选择

select (`<column>`)
保留指定的列。

select (-`<column>`)
除去指定的列。

select (starts_with ("provide_text_value"))
保留名称以指定值开头的列。

select (ends_with ("provide_text_value"))
保留名称以指定值结尾的列。

select (包含 ("provide_text_value"))
保留名称包含指定值的列。

select (匹配 ("provide_text_value"))
保留名称与指定值匹配的列。 指定的值可以是文本或正则表达式。

select (`<column>`: `<column>`)
将列保留在指定范围内。 指定从某一列到另一列的范围。

select (`<column>` , all ())
保留所有列,但使指定的列成为第一列。

select (`<column>` , `<column>`)
保留指定的列。

select_if

select_if(<predicateFunc>) 保留满足指定条件的列。 受支持的函数包括:

  • 包含
  • ends_with
  • matches
  • num_range
  • starts_with

summarize

summarize (provide_new_column = <func>(`<column>`))
将聚集函数应用于指定的列,以将多个列值减少到单个值。 请务必首先使用 group_by 操作对列数据进行分组。

summarize_all

summarize_all (<func>)
将聚集函数应用于所有列,以将多个列值减少为单个值。 指定是否移除缺失的值。 请务必首先使用 group_by 操作对列数据进行分组。

summarize_all (funs (<func>))
将多个聚集函数应用于所有列,以将多个列值减少到单个值。 创建新的列以保存结果。 指定是否移除缺失的值。 请务必首先使用 group_by 操作对列数据进行分组。

summarize_if

summarize_if (<predicate_conditions>, ...)
对满足指定条件的列应用聚集函数,以将多个列的值减少为单个值。 指定是否移除缺失的值。 请务必首先使用 group_by 操作对列数据进行分组。 受支持的函数包括:

  • 计数
  • max
  • 平均数
  • min
  • 标准偏差 (standard deviation)
  • 总和

tally

计数 ()
按组计算行数 (对于字符串列) 或总计数据 (对于数字值)。 请务必首先使用 group_by 操作对列数据进行分组。

计数 (wt = `<column>`)
计算行数 (对于字符串列) 或按组计算加权列的数据 (对于数字列) 总数。

计数 (wt=<func>(`<column>`) ,排序 = <logical>)
将函数应用于指定的加权列,并按组返回结果,排序或不排序。

top_n

top_n (provide_value)
选择每个组中的前 N 行或后 N 行 (按值)。 指定正整数以选择前 N 行;指定负整数以选择最后 N 行。

top_n (provide_value , `<column>`)
根据指定的列,选择每个组中的前 N 行或后 N 行 (按值)。 指定正整数以选择前 N 行;指定负整数以选择最后 N 行。

如果重复行影响计数,请先使用 除去重复项 GUI 操作,然后再使用 top_n () 操作。

transmute

传输 (<new_or_existing_column> = `<column>`)
添加新列或使用指定的表达式覆盖现有列。 仅保留表达式中提及的列。

传输 (<new_or_existing_column> = <func(column)>)
添加新列或通过对指定列应用函数来覆盖现有列。 仅保留表达式中提及的列。

(<new_or_existing_column> = `<column>` <operator> `<column>`)
添加新列或通过对指定列应用运算符来覆盖现有列。 仅保留表达式中提及的列。

传输 (<new_or_existing_column> = `<column>` , <new_or_existing_column> = `<column>`)
添加多个新列。 仅保留表达式中提及的列。

传输 (<new_or_existing_column> = if_else (provide_value , provide_value_for_true , provide_value_for_false))
添加新列或使用指定的条件表达式覆盖现有列。 仅保留表达式中提及的列。

取消分组

ungroup ()
取消对数据的分组。

函数

汇总

  • 平均数
  • min
  • n
  • sd
  • 总和

逻辑

  • is.na

数字

  • abs
  • coalesce
  • 分割
  • exp
  • 下限 (floor)

文本

  • c
  • coalesce
  • 粘贴
  • tolower
  • toupper

类型

  • as.character
  • as.double
  • as.integer
  • as.logical

逻辑运算符

  • <
  • <=
  • >=
  • >
  • 之间
  • !=
  • ==
  • %in%

父主题: 优化数据

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more