Data Refinery stellt interaktive Vorlagen für das Codieren von Operationen, Funktionen und logischen Operatoren bereit. Sie können über das Textfeld mit der Befehlszeile oben auf der Seite auf die Vorlagen zugreifen. Die Vorlagen enthalten interaktive Unterstützung, die Ihnen bei den Syntaxoptionen hilft.
Operationen
arrange
(`<column>
`)
Zeilen in aufsteigender Reihenfolge nach den angegebenen Spalten sortieren.
sort (desc (`<column>
`))
Zeilen in absteigender Reihenfolge nach der angegebenen Spalte sortieren.
(`<column>
`, `<column>
`)
Zeilen in aufsteigender Reihenfolge nach jeder angegebenen, aufeinanderfolgenden Spalte sortieren und dabei die Reihenfolge der vorherigen Sortierung beibehalten.
count
count ()
Daten nach Gruppe zusammenfassen.
count (`<column>
`)
Gruppiert die Daten nach der angegebenen Spalte und gibt die Anzahl der Zeilen mit eindeutigen Werten zurück (für Zeichenfolgewerte) oder gibt die Summe für jede Gruppe zurück (für numerische Werte).
count (`<column>
`, wt= `<column>
`)
Gruppieren Sie die Daten nach der angegebenen Spalte und geben Sie die Anzahl der Zeilen mit eindeutigen Werten (für Zeichenfolgewerte) oder die Summe für jede Gruppe (für numerische Werte) in der angegebenen Gewichtungsspalte zurück.
count (`<column>
`, wt=<func>
(`<column>
`))
Gruppiert die Daten nach der angegebenen Spalte und gibt das Ergebnis der Funktion zurück, die auf die angegebene Gewichtungsspalte angewendet wurde.
count (`<column>
`, wt=<func>
(`<column>
`), sort = <logical>
)
Gruppieren Sie die Daten nach der angegebenen Spalte und geben Sie das Ergebnis der Funktion zurück, die auf die angegebene Gewichtungsspalte angewendet wurde, sortiert oder nicht.
distinct
distinct ()
Eindeutige, eindeutige Zeilen auf der Basis aller Spalten oder auf der Basis angegebener Spalten beibehalten.
Filter
filter (`<column>
` <logicalOperator>
provide_value)
Zeilen beibehalten, die die angegebene Bedingung erfüllen, und alle anderen Zeilen herausfiltern.
Für den booleschen Spaltentyp muss "provide_value" den Wert TRUE oder FALSE haben.
filter (`<column>
` == <logical>
)
Zeilen beibehalten, die die angegebenen Filterbedingungen auf der Basis des logischen Werts TRUE oder FALSE erfüllen.
filter (<func>
(`<column>
`) <logicalOperator>
provide_value)
Behalten Sie Zeilen, die die angegebene Bedingung erfüllen, und filtern Sie alle anderen Zeilen heraus. Die Bedingung kann die Anwendung einer Funktion auf eine Spalte links vom Operator einbeziehen.
filter (`<column>
` <logicalOperator>
<func(column)>
)
Zeilen beibehalten, die die angegebene Bedingung erfüllen, und alle anderen Zeilen herausfiltern. Die Bedingung kann die Anwendung einer Funktion auf eine Spalte rechts vom Operator einbeziehen.
filter (<logicalfunc(column)>
)
Behalten Sie Zeilen bei, die die angegebene Bedingung erfüllen, und filtern Sie alle anderen Zeilen heraus. Die Bedingung kann die Anwendung einer logischen Funktion auf eine Spalte einbeziehen.
filter (`<column>
` <logicalOperator>
provide_value <andor>
`<column>
` <logicalOperator>
provide_value)
Zeilen beibehalten, die die angegebenen Bedingungen erfüllen, und alle anderen Zeilen herausfiltern.
group_by
group_by (`<column>
`)
Gruppiert die Daten basierend auf der angegebenen Spalte.
group_by (desc (`<column>
`))
Gruppiert die Daten in absteigender Reihenfolge basierend auf der angegebenen Spalte.
mutate
mutate (provide_new_column = `<column>
`)
Fügt eine neue Spalte hinzu und behält vorhandene Spalten bei.
mutate (provide_new_column = <func(column)>
)
Fügt eine neue Spalte unter Verwendung des angegebenen Ausdrucks hinzu, der eine Funktion auf eine Spalte anwendet. Behält bestehende Spalten bei.
mutate (provide_new_column = case_when (`<column>
` <operator>
provide_value_or_column_to_compare ~ provide_value_or_column_to_replace, `<column>
` <operator>
provide_value_or_column_to_compare ~ provide_value_or_column_to_replace, TRUE ~ provide_default_value_or_column))
Fügen Sie mithilfe des angegebenen bedingten Ausdrucks eine neue Spalte hinzu.
mutate (provide_new_column = `<column>
` <operator>
`<column>
`)
Fügt eine neue Spalte unter Verwendung des angegebenen Ausdrucks hinzu, der eine Berechnung mit vorhandenen Spalten durchführt. Behält bestehende Spalten bei.
mutate (provide_new_column = coalesce (`<column>
`; `<column>
`))
Fügt mithilfe des angegebenen Ausdrucks eine neue Spalte hinzu, die fehlende Werte in der neuen Spalte durch Werte aus einer anderen, angegebenen Spalte ersetzt. Alternativ zur Angabe einer anderen Spalte können Sie einen Wert, eine Funktion für eine Spalte oder eine Funktion für einen Wert angeben. Behält bestehende Spalten bei.
mutate (provide_new_column = if_else (`<column>
` <logicalOperator>
provide_value, provide_value_for_true, provide_value_for_false))
Fügt eine neue Spalte unter Verwendung des angegebenen bedingten Ausdrucks hinzu. Behält bestehende Spalten bei.
mutate (provide_new_column = `<column>
`, provide_new_column = `<column>
`)
Fügt mehrere neue Spalten hinzu und behält vorhandene Spalten bei.
mutate (provide_new_column = n ())
Die Werte in den Gruppen zählen. Stellen Sie sicher, dass die Gruppierung mit 'group_by' bereits erfolgt ist. Behält bestehende Spalten bei.
mutate_all
mutate_all (funs (<func>
))
Die angegebene Funktion auf alle Spalten anwenden und die vorhandenen Werte in diesen Spalten überschreiben. Geben Sie an, ob fehlende Werte entfernt werden sollen.
mutate_all (funs (. <operator>
provide_value))
Anwenden des angegebenen Operators auf alle Spalten und Überschreiben der vorhandenen Werte in diesen Spalten.
mutate_all (funs ("provide_wert" =. <operator>
provide_value))
Anwenden des angegebenen Operators auf alle Spalten und Erstellen neuer Spalten für die Ergebnisse. Geben Sie den neuen Spalten Namen, die auf den angegebenen Wert enden.
mutate_at
mutate_at (vars (`<column>
`), funs (<func>
))
Funktionen auf die angegebenen Spalten anwenden.
mutate_if
mutate_if (<predicateFunc>
, <func>
)
Funktionen auf die Spalten anwenden, die die angegebene Bedingung erfüllen.
mutate_if (<predicateFunc>
, funs (. <operator>
provide_value))
Der angegebene Operator wird auf die Spalten angewendet, die die angegebene Bedingung erfüllen.
mutate_if (<predicateFunc>
, funs (<func>
))
Wenden Sie Funktionen auf die Spalten an, die die angegebene Bedingung erfüllen. Geben Sie an, ob fehlende Werte entfernt werden sollen.
rename
rename (provide_new_column = `<column>
`)
Benennt die angegebene Spalte um.
sample_frac
sample_frac (provide_number_between_0_and_1, weight= `<column>
`, replace=<logical>
)
Generieren einer Zufallsstichprobe auf der Basis eines Prozentsatzes der Daten. Die Gewichtung ('weight') ist optional und gibt den Quotienten für die Wahrscheinlichkeit an, mit der die Auswahl der Zeile erfolgt. Geben Sie eine numerische Spalte an. Die Angabe für 'replace' ist optional und hat den Standardwert FALSE.
sample_n
sample_n (provide_number_of_rows, weight = `<column>
`, replace=<logical>
)
Generiert eine Zufallsstichprobe von Daten auf der Basis einer Anzahl von Zeilen. Die Gewichtung ('weight') ist optional und gibt den Quotienten für die Wahrscheinlichkeit an, mit der die Auswahl der Zeile erfolgt. Geben Sie eine numerische Spalte an. Die Angabe für 'replace' ist optional und hat den Standardwert FALSE.
select
select (`<column>
`)
Die angegebene Spalte beibehalten.
select (-`<column>
`)
Die angegebene Spalte entfernen.
select (starts_with ("provide_text_wert"))
Spalten mit Namen beibehalten, die mit dem angegebenen Wert beginnen.
select (ends_with ("provide_textwert"))
Spalten mit Namen beibehalten, die mit dem angegebenen Wert enden.
select (enthält ("provide_text_value"))
Spalten mit Namen beibehalten, die den angegebenen Wert enthalten.
select (matches ("provide_text_wert"))
Spalten mit Namen beibehalten, die mit dem angegebenen Wert übereinstimmen. Bei dem angegebenen Wert kann es sich um Text oder um einen regulären Ausdruck handeln.
select (`<column>
` :`<column>
`)
Spalten im angegebenen Bereich beibehalten. Der Bereich ergibt sich aus der Angabe einer Spalte und einer weiteren Spalte.
select (`<column>
`, everything ())
Alle Spalten beibehalten, aber die angegebene Spalte zur ersten Spalte machen.
select (`<column>
`, `<column>
`)
Die angegebenen Spalten beibehalten.
select_if
select_if(<predicateFunc>
)
Behält diejenigen Spalten bei, die die angegebene Bedingung erfüllen. Die folgenden Funktionen werden unterstützt:
- enthält
- ends_with
- matches
- num_range
- starts_with
summarize
summarize (provide_new_column = <func>
(`<column>
`)
Spaltenfunktionen auf die angegebenen Spalten anwenden, um mehrere Spaltenwerte auf einen einzelnen Wert zu reduzieren. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.
summarize_all
summarize_all (<func>
)
Wenden Sie eine Aggregatfunktion auf alle Spalten an, um mehrere Spaltenwerte auf einen einzelnen Wert zu reduzieren Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.
summarize_all (funs (<func>
))
Wenden Sie mehrere Spaltenfunktionen auf alle Spalten an, um mehrere Spaltenwerte auf einen einzelnen Wert zu reduzieren. Erstellen Sie neue Spalten für die Ergebnisse. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.
summarize_if
summarize_if(<predicate_conditions>
,...)
Wendet Aggregatfunktionen auf Spalten an, die die angegebenen Bedingungen erfüllen, um mehrere Spaltenwerte zu einem einzigen Wert zu reduzieren. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden. Die folgenden Funktionen werden unterstützt:
- count
- max
- mean
- min
- standard deviation
- Summe
tally
tally ()
Zählt die Anzahl der Zeilen (für Zeichenfolgespalten) oder summiert die Daten (für numerische Werte) nach Gruppe. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.
tally (wt = `<column>
`)
Zählt die Anzahl der Zeilen (für Zeichenfolgespalten) oder summiert die Daten (für numerische Spalten) nach Gruppe für die gewichtete Spalte.
tally (wt=<func>
(`<column>
`), sort = <logical>
)
Wendet eine Funktion auf die angegebene gewichtete Spalte an und gibt das Ergebnis nach Gruppe, sortiert oder nicht zurück.
top_n
top_n (provide_value)
Wählen Sie die oberen oder unteren N Zeilen (nach Wert) in jeder Gruppe aus. Geben Sie eine positive Ganzzahl für die Auswahl der oberen N Zeilen an bzw. geben Sie eine negative Ganzzahl für die Auswahl der unteren N Zeilen an.
top_n (provide_value, `<column>
`)
Wählen Sie die oberen oder unteren N Zeilen (nach Wert) in jeder Gruppe basierend auf der angegebenen Spalte aus. Geben Sie eine positive Ganzzahl für die Auswahl der oberen N Zeilen an bzw. geben Sie eine negative Ganzzahl für die Auswahl der unteren N Zeilen an.
Wenn sich doppelte Zeilen auf die Anzahl auswirken, verwenden Sie die GUI-Operation Duplikate entfernen, bevor Sie die Operation 'top_n ()' ausführen.
transmute
transmute (<new_or_existing_column>
= `<column>
`)
Fügen Sie eine neue Spalte hinzu oder überschreiben Sie eine vorhandene Spalte mithilfe des angegebenen Ausdrucks. Behält nur die im Ausdruck genannten Spalten bei.
transmute (<new_or_existing_column>
= <func(column)>
)
Fügt eine neue Spalte hinzu oder überschreibt eine vorhandene Spalte, indem eine Funktion auf die angegebene Spalte angewendet wird. Behält nur die im Ausdruck genannten Spalten bei.
transmute (<new_or_existing_column>
= `<column>
` <operator>
`<column>
`)
Fügen Sie eine neue Spalte hinzu oder überschreiben Sie eine vorhandene Spalte, indem Sie einen Operator auf die angegebene Spalte anwenden. Behält nur die im Ausdruck genannten Spalten bei.
transmute (<new_or_existing_column>
= `<column>
`, <new_or_existing_column>
= `<column>
`)
Fügen Sie mehrere neue Spalten hinzu. Behält nur die im Ausdruck genannten Spalten bei.
transmute (<new_or_existing_column>
= if_else (provide_value, provide_value_for_true, provide_value_for_false))
Fügen Sie eine neue Spalte hinzu oder überschreiben Sie eine vorhandene Spalte mithilfe der angegebenen Bedingungsausdrücke. Behält nur die in den Ausdrücken genannten Spalten bei.
ungroup
unroup ()
Gruppierung der Daten aufheben.
Funktionen
Aggregieren
- mean
- min
- n
- sd
- Summe
Logisch
- is.na
Numerisch
- abs
- coalesce
- cut
- exp
- floor
Text
- c
- coalesce
- paste
- tolower
- toupper
Typ
- as.character
- as.double
- as.integer
- as.logical
Logische Operatoren
- <
- <=
- >=
- >
- between
- !=
- ==
- %in%
Übergeordnetes Thema: Daten optimieren