Interaktive Codevorlagen in Data Refinery

Data Refinery stellt interaktive Vorlagen für das Codieren von Operationen, Funktionen und logischen Operatoren bereit. Sie können über das Textfeld mit der Befehlszeile oben auf der Seite auf die Vorlagen zugreifen. Die Vorlagen enthalten interaktive Unterstützung, die Ihnen bei den Syntaxoptionen hilft.

Wichtig
Die Unterstützung betrifft die Operationen und Funktionen in der Benutzerschnittstelle. Wenn Sie andere Operationen oder Funktionen aus einer Open-Source-Bibliothek einfügen, schlägt der Data Refinery-Ablauf möglicherweise fehl. Informieren Sie sich anhand der Hilfe für die Befehlszeile und verwenden Sie unbedingt die Liste der Operationen und Funktionen aus den Vorlagen. Greifen Sie auf die Beispiele in den Vorlagen zurück, um die Syntax nach Bedarf weiter anzupassen.

Operationen

arrange

arrange(`<column>`)
Sortiert Zeilen in aufsteigender Reihenfolge nach den angegebenen Spalten.

arrange(desc(`<column>`))
Sortiert Zeilen in absteigender Reihenfolge nach den angegebenen Spalten.

arrange(`<column>`, `<column>`)
Sortiert Zeilen in aufsteigender Reihenfolge nacheinander nach jeder angegebenen Spalte unter Beibehaltung der Reihenfolge, die aus der vorherigen Sortierung hervorgegangen ist.

count

count()
Addiert die Daten nach Gruppe.

count(`<column>`)
Gruppiert die Daten nach den Werten in der angegebenen Spalte und gibt die Anzahl von Zeilen mit eindeutigen Werten (bei Zeichenfolgewerten) oder die Summe für jede Gruppe (bei numerischen Werten) zurück.

count(`<column>`, wt=`<column>`)
Gruppiert die Daten nach den Werten in der angegebenen Spalte und gibt die Anzahl von Zeilen mit eindeutigen Werten (bei Zeichenfolgewerten) oder die Summe für jede Gruppe (bei numerischen Werten) in der angegebenen Gewichtungsspalte zurück.

count(`<column>`, wt=<func>(`<column>`))
Gruppiert die Daten nach den Werten in der angegebenen Spalte und gibt das Ergebnis der Funktion zurück, die auf die angegebene Gewichtungsspalte angewendet wurde.

count(`<column>`, wt=<func>(`<column>`), sort = <logical>)
Gruppiert die Daten nach den Werten in der angegebenen Spalte und gibt das Ergebnis der Funktion, die auf die angegebene Gewichtungsspalte angewendet wurde, sortiert oder nicht sortiert zurück.

distinct

distinct()
Behält getrennte eindeutige Zeilen auf der Grundlage aller oder angegebener Spalten bei.

filter

filter(`<column>` <logicalOperator> provide_value)
Behält solche Zeilen bei, die die angegebene Bedingung erfüllen, und filtert alle übrigen Zeilen heraus.
Für den booleschen Spaltentyp muss "provide_value" den Wert TRUE oder FALSE haben.

filter(`<column>`== <logical>)
Behält solche Zeilen bei, die die angegebenen Filterbedingungen auf der Basis des logischen Werts TRUE oder FALSE erfüllen.

filter(<func>(`<column>`) <logicalOperator> provide_value)
Behält solche Zeilen bei, die die angegebene Bedingung erfüllen, und filtert alle übrigen Zeilen heraus. Die Bedingung kann die Anwendung einer Funktion auf eine Spalte links vom Operator einbeziehen.

filter(`<column>` <logicalOperator> <func(column)>)
Behält solche Zeilen bei, die die angegebene Bedingung erfüllen, und filtert alle übrigen Zeilen heraus. Die Bedingung kann die Anwendung einer Funktion auf eine Spalte rechts vom Operator einbeziehen.

filter(<logicalfunc(column)>)
Behält solche Zeilen bei, die die angegebene Bedingung erfüllen, und filtert alle übrigen Zeilen heraus. Die Bedingung kann die Anwendung einer logischen Funktion auf eine Spalte einbeziehen.

filter(`<column>` <logicalOperator> provide_value <andor> `<column>` <logicalOperator> provide_value )
Behält solche Zeilen bei, die die angegebenen Bedingungen erfüllen, und filtert alle übrigen Zeilen heraus.

group_by

group_by(`<column>`)
Gruppiert die Daten auf der Grundlage der angegebenen Spalte.

group_by(desc(`<column>`))
Gruppiert die Daten in absteigender Reihenfolge auf der Grundlage der angegebenen Spalte.

mutate

mutate(provide_new_column = `<column>`)
Fügt eine neue Spalte hinzu und behält bestehende Spalten bei.

mutate(provide_new_column = <func(column)>)
Fügt unter Verwendung des angegebenen Ausdrucks, der eine Funktion auf eine Spalte anwendet, eine neue Spalte hinzu. Behält bestehende Spalten bei.

mutate(provide_new_column = case_when(`<column>` <operator> provide_value_or_column_to_compare ~ provide_value_or_column_to_replace, `<column>` <operator> provide_value_or_column_to_compare ~ provide_value_or_column_to_replace, TRUE ~ provide_default_value_or_column))
Fügt unter Verwendung des angegebenen Bedingungsausdrucks eine neue Spalte hinzu.

mutate(provide_new_column = `<column>` <operator> `<column>`)
Fügt unter Verwendung des angegebenen Ausdrucks, der eine Berechnung mit vorhandenen Spalten durchführt, eine neue Spalte hinzu. Behält bestehende Spalten bei.

mutate(provide_new_column = coalesce(`<column>`, `<column>`))
Fügt unter Verwendung des angegebenen Ausdrucks, der fehlende Werte in der neuen Spalte durch Werte aus einer anderen angegebenen Spalte ersetzt, eine neue Spalte hinzu. Alternativ zur Angabe einer anderen Spalte können Sie einen Wert, eine Funktion für eine Spalte oder eine Funktion für einen Wert angeben. Behält bestehende Spalten bei.

mutate(provide_new_column = if_else(`<column>` <logicalOperator> provide_value, provide_value_for_true, provide_value_for_false))
Fügt unter Verwendung des angegebenen Bedingungsausdrucks eine neue Spalte hinzu. Behält bestehende Spalten bei.

mutate(provide_new_column = `<column>`, provide_new_column = `<column>`)
Fügt mehrere neue Spalten hinzu und behält bestehende Spalten bei.

mutate(provide_new_column = n())
Zählt die Werte in den Gruppen. Stellen Sie sicher, dass die Gruppierung mit 'group_by' bereits erfolgt ist. Behält bestehende Spalten bei.

mutate_all

mutate_all(funs(<func>))
Wendet die angegebene Funktion auf alle Spalten an und überschreibt die vorhandenen Werte in diesen Spalten. Geben Sie an, ob fehlende Werte entfernt werden sollen.

mutate_all(funs(. <operator> provide_value))
Wendet den angegebenen Operator auf alle Spalten und überschreibt die vorhandenen Werte in diesen Spalten.

mutate_all(funs("provide_value" = . <operator> provide_value))
Wendet den angegebenen Operator auf alle Spalten an und erstellt neue Spalten für die Ergebnisse. Geben Sie den neuen Spalten Namen, die auf den angegebenen Wert enden.

mutate_at

mutate_at(vars(`<column>`), funs(<func>))
Wendet Funktionen auf die angegebenen Spalten an.

mutate_if

mutate_if(<predicateFunc>, <func>)
Wendet Funktionen auf die Spalten an, die die angegebene Bedingung erfüllen.

mutate_if(<predicateFunc>, funs( . <operator> provide_value))
Wendet den angegebenen Operator auf die Spalten an, die die angegebene Bedingung erfüllen.

mutate_if(<predicateFunc>, funs(<func>))
Wendet Funktionen auf die Spalten an, die die angegebene Bedingung erfüllen. Geben Sie an, ob fehlende Werte entfernt werden sollen.

rename

rename(provide_new_column = `<column>`)
Benennt die angegebene Spalte um.

sample_frac

sample_frac(provide_number_between_0_and_1, weight=`<column>`,replace=<logical>)
Generieren Sie eine Zufallsstichprobe auf der Basis eines Prozentsatzes der Daten. 'weight' ist optional und gibt das Verhältnis der Wahrscheinlichkeit an, mit der die Zeile ausgewählt wird. Geben Sie eine numerische Spalte an. 'replace' ist optional und der Standardwert ist FALSE.

sample_n

sample_n(provide_number_of_rows,weight=`<column>`,replace=<logical>)
Generieren Sie eine Zufallsstichprobe auf der Basis einer Zeilenanzahl. 'weight' ist optional und gibt das Verhältnis der Wahrscheinlichkeit an, mit der die Zeile ausgewählt wird. Geben Sie eine numerische Spalte an. 'replace' ist optional und der Standardwert ist FALSE.

Auswählen

select(`<column>`)
Behält die angegebene Spalte bei.

select(-`<column>`)
Entfernt die angegebene Spalte.

select(starts_with("provide_text_value"))
Behält Spalten bei, deren Name mit dem angegebenen Wert beginnt.

select(ends_with("provide_text_value"))
Behält Spalten bei, deren Name mit dem angegebenen Wert endet.

select(contains("provide_text_value"))
Behält Spalten bei, deren Name den angegebenen Wert enthält.

select(matches ("provide_text_value"))
Behält Spalten bei, deren Name mit dem angegebenen Wert übereinstimmt. Bei dem angegebenen Wert kann es sich um Text oder um einen regulären Ausdruck handeln.

select(`<column>`:`<column>`)
Behält die Spalten im angegebenen Bereich bei. Der Bereich ergibt sich aus der Angabe einer Spalte und einer weiteren Spalte.

select(`<column>`, everything())
Behält alle Spalten bei, wobei jedoch aus der angegebenen Spalte die erste Spalte wird.

select(`<column>`, `<column>`)
Behält die angegebenen Spalten bei.

select_if

select_if(<predicateFunc>) Behält Spalten bei, die die angegebene Bedingung erfüllen. Die folgenden Funktionen werden unterstützt:

  • enthält
  • ends_with
  • matches
  • num_range
  • starts_with

summarize

summarize(provide_new_column = <func>(`<column>`))
Wendet Aggregatfunktionen auf die angegebenen Spalten an, um mehrere Spaltenwerte zu einem einzigen Wert zu reduzieren. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

summarize_all

summarize_all(<func>)
Wendet eine Aggregatfunktion auf alle Spalten an, um mehrere Spaltenwerte zu einem einzigen Wert zu reduzieren. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

summarize_all(funs(<func>))
Wendet mehrere Aggregatfunktionen auf alle Spalten an, um mehrere Spaltenwerte zu einem einzigen Wert zu reduzieren. Erstellen Sie neue Spalten für die Ergebnisse. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

summarize_if

summarize_if(<predicate_conditions>,...)
Wendet Aggregatfunktionen auf Spalten an, die die angegebenen Bedingungen erfüllen, um mehrere Spaltenwerte zu einem einzigen Wert zu reduzieren. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden. Die folgenden Funktionen werden unterstützt:

  • count
  • max
  • mean
  • min
  • standard deviation
  • sum

tally

tally()
Zählt die Anzahl der Zeilen (bei Zeichenfolgespalten) oder addiert die Daten (bei numerischen Werten) nach Gruppe. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

tally(wt=`<column>`)
Zählt die Anzahl der Zeilen (bei Zeichenfolgespalten) oder addiert die Daten (bei numerischen Spalten) nach Gruppe für die gewichtete Spalte.

tally( wt=<func>(`<column>`), sort = <logical>)
Wendet eine Funktion auf die angegebene gewichtete Spalte an und gibt das Ergebnis nach Gruppe und sortiert oder nicht sortiert zurück.

top_n

top_n(provide_value)
Wählt die oberen N oder die unteren N Zeilen (nach Wert) in jeder Gruppe aus. Geben Sie eine positive Ganzzahl für die Auswahl der oberen N Zeilen an bzw. geben Sie eine negative Ganzzahl für die Auswahl der unteren N Zeilen an.

top_n(provide_value, `<column>`)
Wählt die oberen N oder die unteren N Zeilen (nach Wert) in jeder Gruppe auf der Grundlage der angegebenen Spalte aus. Geben Sie eine positive Ganzzahl für die Auswahl der oberen N Zeilen an bzw. geben Sie eine negative Ganzzahl für die Auswahl der unteren N Zeilen an.

Wenn sich doppelte Zeilen auf die Anzahl auswirken, verwenden Sie die GUI-Operation Duplikate entfernen, bevor Sie die Operation 'top_n ()' ausführen.

transmute

transmute(<new_or_existing_column> = `<column>`)
Fügt eine neue Spalte hinzu oder überschreibt eine vorhandene Spalte unter Verwendung des angegebenen Ausdrucks. Behält nur die im Ausdruck genannten Spalten bei.

transmute(<new_or_existing_column> = <func(column)>)
Fügt eine neue Spalte hinzu oder überschreibt eine vorhandene Spalte durch Anwenden einer Funktion auf die angegebene Spalte. Behält nur die im Ausdruck genannten Spalten bei.

transmute(<new_or_existing_column> = `<column>` <operator> `<column>`)
Fügt eine neue Spalte hinzu oder überschreibt eine vorhandene Spalte durch Anwenden eines Operators auf die angegebene Spalte. Behält nur die im Ausdruck genannten Spalten bei.

transmute(<new_or_existing_column> = `<column>`, <new_or_existing_column> = `<column>`)
Fügt mehrere neue Spalten hinzu. Behält nur die im Ausdruck genannten Spalten bei.

transmute(<new_or_existing_column> = if_else( provide_value, provide_value_for_true, provide_value_for_false))
Fügt eine neue Spalte hinzu oder überschreibt eine vorhandene Spalte unter Verwendung der angegebenen Bedingungsausdrücke. Behält nur die in den Ausdrücken genannten Spalten bei.

ungroup

ungroup()
Hebt die Gruppierung von Daten auf.

Funktionen

Aggregieren

  • mean
  • min
  • n
  • sd
  • sum

Logisch

  • is.na

Numerisch

  • abs
  • coalesce
  • cut
  • exp
  • floor

Text

  • c
  • coalesce
  • paste
  • tolower
  • toupper

Typ

  • as.character
  • as.double
  • as.integer
  • as.logical

Logische Operatoren

  • <
  • <=
  • >=
  • >
  • BETWEEN
  • !=
  • ==
  • %in%

Übergeordnetes Thema: Daten optimieren