0 / 0
Zurück zur englischen Version der Dokumentation
Interaktive Codevorlagen in Data Refinery

Interaktive Codevorlagen in Data Refinery

Data Refinery stellt interaktive Vorlagen für das Codieren von Operationen, Funktionen und logischen Operatoren bereit. Sie können über das Textfeld mit der Befehlszeile oben auf der Seite auf die Vorlagen zugreifen. Die Vorlagen enthalten interaktive Unterstützung, die Ihnen bei den Syntaxoptionen hilft.

Wichtig: Unterstützung für die Operationen und Funktionen in der Benutzerschnittstelle. Wenn Sie andere Operationen oder Funktionen aus einer Open-Source-Bibliothek einfügen, schlägt der Data Refinery-Ablauf möglicherweise fehl. Informieren Sie sich anhand der Hilfe für die Befehlszeile und verwenden Sie unbedingt die Liste der Operationen und Funktionen aus den Vorlagen. Greifen Sie auf die Beispiele in den Vorlagen zurück, um die Syntax nach Bedarf weiter anzupassen.

Operationen

arrange

(`<column>`)
Zeilen in aufsteigender Reihenfolge nach den angegebenen Spalten sortieren.

sort (desc (`<column>`))
Zeilen in absteigender Reihenfolge nach der angegebenen Spalte sortieren.

(`<column>`, `<column>`)
Zeilen in aufsteigender Reihenfolge nach jeder angegebenen, aufeinanderfolgenden Spalte sortieren und dabei die Reihenfolge der vorherigen Sortierung beibehalten.

count

count ()
Daten nach Gruppe zusammenfassen.

count (`<column>`)
Gruppiert die Daten nach der angegebenen Spalte und gibt die Anzahl der Zeilen mit eindeutigen Werten zurück (für Zeichenfolgewerte) oder gibt die Summe für jede Gruppe zurück (für numerische Werte).

count (`<column>`, wt= `<column>`)
Gruppieren Sie die Daten nach der angegebenen Spalte und geben Sie die Anzahl der Zeilen mit eindeutigen Werten (für Zeichenfolgewerte) oder die Summe für jede Gruppe (für numerische Werte) in der angegebenen Gewichtungsspalte zurück.

count (`<column>`, wt=<func>(`<column>`))
Gruppiert die Daten nach der angegebenen Spalte und gibt das Ergebnis der Funktion zurück, die auf die angegebene Gewichtungsspalte angewendet wurde.

count (`<column>`, wt=<func>(`<column>`), sort = <logical>)
Gruppieren Sie die Daten nach der angegebenen Spalte und geben Sie das Ergebnis der Funktion zurück, die auf die angegebene Gewichtungsspalte angewendet wurde, sortiert oder nicht.

distinct

distinct ()
Eindeutige, eindeutige Zeilen auf der Basis aller Spalten oder auf der Basis angegebener Spalten beibehalten.

Filter

filter (`<column>` <logicalOperator> provide_value)
Zeilen beibehalten, die die angegebene Bedingung erfüllen, und alle anderen Zeilen herausfiltern.
Für den booleschen Spaltentyp muss "provide_value" den Wert TRUE oder FALSE haben.

filter (`<column>` == <logical>)
Zeilen beibehalten, die die angegebenen Filterbedingungen auf der Basis des logischen Werts TRUE oder FALSE erfüllen.

filter (<func>(`<column>`) <logicalOperator> provide_value)
Behalten Sie Zeilen, die die angegebene Bedingung erfüllen, und filtern Sie alle anderen Zeilen heraus. Die Bedingung kann die Anwendung einer Funktion auf eine Spalte links vom Operator einbeziehen.

filter (`<column>` <logicalOperator> <func(column)>)
Zeilen beibehalten, die die angegebene Bedingung erfüllen, und alle anderen Zeilen herausfiltern. Die Bedingung kann die Anwendung einer Funktion auf eine Spalte rechts vom Operator einbeziehen.

filter (<logicalfunc(column)>)
Behalten Sie Zeilen bei, die die angegebene Bedingung erfüllen, und filtern Sie alle anderen Zeilen heraus. Die Bedingung kann die Anwendung einer logischen Funktion auf eine Spalte einbeziehen.

filter (`<column>` <logicalOperator> provide_value <andor> `<column>` <logicalOperator> provide_value)
Zeilen beibehalten, die die angegebenen Bedingungen erfüllen, und alle anderen Zeilen herausfiltern.

group_by

group_by (`<column>`)
Gruppiert die Daten basierend auf der angegebenen Spalte.

group_by (desc (`<column>`))
Gruppiert die Daten in absteigender Reihenfolge basierend auf der angegebenen Spalte.

mutate

mutate (provide_new_column = `<column>`)
Fügt eine neue Spalte hinzu und behält vorhandene Spalten bei.

mutate (provide_new_column = <func(column)>)
Fügt eine neue Spalte unter Verwendung des angegebenen Ausdrucks hinzu, der eine Funktion auf eine Spalte anwendet. Behält bestehende Spalten bei.

mutate (provide_new_column = case_when (`<column>` <operator> provide_value_or_column_to_compare ~ provide_value_or_column_to_replace, `<column>` <operator> provide_value_or_column_to_compare ~ provide_value_or_column_to_replace, TRUE ~ provide_default_value_or_column))
Fügen Sie mithilfe des angegebenen bedingten Ausdrucks eine neue Spalte hinzu.

mutate (provide_new_column = `<column>` <operator> `<column>`)
Fügt eine neue Spalte unter Verwendung des angegebenen Ausdrucks hinzu, der eine Berechnung mit vorhandenen Spalten durchführt. Behält bestehende Spalten bei.

mutate (provide_new_column = coalesce (`<column>`; `<column>`))
Fügt mithilfe des angegebenen Ausdrucks eine neue Spalte hinzu, die fehlende Werte in der neuen Spalte durch Werte aus einer anderen, angegebenen Spalte ersetzt. Alternativ zur Angabe einer anderen Spalte können Sie einen Wert, eine Funktion für eine Spalte oder eine Funktion für einen Wert angeben. Behält bestehende Spalten bei.

mutate (provide_new_column = if_else (`<column>` <logicalOperator> provide_value, provide_value_for_true, provide_value_for_false))
Fügt eine neue Spalte unter Verwendung des angegebenen bedingten Ausdrucks hinzu. Behält bestehende Spalten bei.

mutate (provide_new_column = `<column>`, provide_new_column = `<column>`)
Fügt mehrere neue Spalten hinzu und behält vorhandene Spalten bei.

mutate (provide_new_column = n ())
Die Werte in den Gruppen zählen. Stellen Sie sicher, dass die Gruppierung mit 'group_by' bereits erfolgt ist. Behält bestehende Spalten bei.

mutate_all

mutate_all (funs (<func>))
Die angegebene Funktion auf alle Spalten anwenden und die vorhandenen Werte in diesen Spalten überschreiben. Geben Sie an, ob fehlende Werte entfernt werden sollen.

mutate_all (funs (. <operator> provide_value))
Anwenden des angegebenen Operators auf alle Spalten und Überschreiben der vorhandenen Werte in diesen Spalten.

mutate_all (funs ("provide_wert" =. <operator> provide_value))
Anwenden des angegebenen Operators auf alle Spalten und Erstellen neuer Spalten für die Ergebnisse. Geben Sie den neuen Spalten Namen, die auf den angegebenen Wert enden.

mutate_at

mutate_at (vars (`<column>`), funs (<func>))
Funktionen auf die angegebenen Spalten anwenden.

mutate_if

mutate_if (<predicateFunc>, <func>)
Funktionen auf die Spalten anwenden, die die angegebene Bedingung erfüllen.

mutate_if (<predicateFunc>, funs (. <operator> provide_value))
Der angegebene Operator wird auf die Spalten angewendet, die die angegebene Bedingung erfüllen.

mutate_if (<predicateFunc>, funs (<func>))
Wenden Sie Funktionen auf die Spalten an, die die angegebene Bedingung erfüllen. Geben Sie an, ob fehlende Werte entfernt werden sollen.

rename

rename (provide_new_column = `<column>`)
Benennt die angegebene Spalte um.

sample_frac

sample_frac (provide_number_between_0_and_1, weight= `<column>`, replace=<logical>)
Generieren einer Zufallsstichprobe auf der Basis eines Prozentsatzes der Daten. Die Gewichtung ('weight') ist optional und gibt den Quotienten für die Wahrscheinlichkeit an, mit der die Auswahl der Zeile erfolgt. Geben Sie eine numerische Spalte an. Die Angabe für 'replace' ist optional und hat den Standardwert FALSE.

sample_n

sample_n (provide_number_of_rows, weight = `<column>`, replace=<logical>)
Generiert eine Zufallsstichprobe von Daten auf der Basis einer Anzahl von Zeilen. Die Gewichtung ('weight') ist optional und gibt den Quotienten für die Wahrscheinlichkeit an, mit der die Auswahl der Zeile erfolgt. Geben Sie eine numerische Spalte an. Die Angabe für 'replace' ist optional und hat den Standardwert FALSE.

select

select (`<column>`)
Die angegebene Spalte beibehalten.

select (-`<column>`)
Die angegebene Spalte entfernen.

select (starts_with ("provide_text_wert"))
Spalten mit Namen beibehalten, die mit dem angegebenen Wert beginnen.

select (ends_with ("provide_textwert"))
Spalten mit Namen beibehalten, die mit dem angegebenen Wert enden.

select (enthält ("provide_text_value"))
Spalten mit Namen beibehalten, die den angegebenen Wert enthalten.

select (matches ("provide_text_wert"))
Spalten mit Namen beibehalten, die mit dem angegebenen Wert übereinstimmen. Bei dem angegebenen Wert kann es sich um Text oder um einen regulären Ausdruck handeln.

select (`<column>` :`<column>`)
Spalten im angegebenen Bereich beibehalten. Der Bereich ergibt sich aus der Angabe einer Spalte und einer weiteren Spalte.

select (`<column>`, everything ())
Alle Spalten beibehalten, aber die angegebene Spalte zur ersten Spalte machen.

select (`<column>`, `<column>`)
Die angegebenen Spalten beibehalten.

select_if

select_if(<predicateFunc>) Behält diejenigen Spalten bei, die die angegebene Bedingung erfüllen. Die folgenden Funktionen werden unterstützt:

  • enthält
  • ends_with
  • matches
  • num_range
  • starts_with

summarize

summarize (provide_new_column = <func>(`<column>`)
Spaltenfunktionen auf die angegebenen Spalten anwenden, um mehrere Spaltenwerte auf einen einzelnen Wert zu reduzieren. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

summarize_all

summarize_all (<func>)
Wenden Sie eine Aggregatfunktion auf alle Spalten an, um mehrere Spaltenwerte auf einen einzelnen Wert zu reduzieren Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

summarize_all (funs (<func>))
Wenden Sie mehrere Spaltenfunktionen auf alle Spalten an, um mehrere Spaltenwerte auf einen einzelnen Wert zu reduzieren. Erstellen Sie neue Spalten für die Ergebnisse. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

summarize_if

summarize_if(<predicate_conditions>,...)
Wendet Aggregatfunktionen auf Spalten an, die die angegebenen Bedingungen erfüllen, um mehrere Spaltenwerte zu einem einzigen Wert zu reduzieren. Geben Sie an, ob fehlende Werte entfernt werden sollen. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden. Die folgenden Funktionen werden unterstützt:

  • count
  • max
  • mean
  • min
  • standard deviation
  • Summe

tally

tally ()
Zählt die Anzahl der Zeilen (für Zeichenfolgespalten) oder summiert die Daten (für numerische Werte) nach Gruppe. Stellen Sie sicher, dass die Spaltendaten zuerst mit der Operation 'group_by' gruppiert werden.

tally (wt = `<column>`)
Zählt die Anzahl der Zeilen (für Zeichenfolgespalten) oder summiert die Daten (für numerische Spalten) nach Gruppe für die gewichtete Spalte.

tally (wt=<func>(`<column>`), sort = <logical>)
Wendet eine Funktion auf die angegebene gewichtete Spalte an und gibt das Ergebnis nach Gruppe, sortiert oder nicht zurück.

top_n

top_n (provide_value)
Wählen Sie die oberen oder unteren N Zeilen (nach Wert) in jeder Gruppe aus. Geben Sie eine positive Ganzzahl für die Auswahl der oberen N Zeilen an bzw. geben Sie eine negative Ganzzahl für die Auswahl der unteren N Zeilen an.

top_n (provide_value, `<column>`)
Wählen Sie die oberen oder unteren N Zeilen (nach Wert) in jeder Gruppe basierend auf der angegebenen Spalte aus. Geben Sie eine positive Ganzzahl für die Auswahl der oberen N Zeilen an bzw. geben Sie eine negative Ganzzahl für die Auswahl der unteren N Zeilen an.

Wenn sich doppelte Zeilen auf die Anzahl auswirken, verwenden Sie die GUI-Operation Duplikate entfernen, bevor Sie die Operation 'top_n ()' ausführen.

transmute

transmute (<new_or_existing_column> = `<column>`)
Fügen Sie eine neue Spalte hinzu oder überschreiben Sie eine vorhandene Spalte mithilfe des angegebenen Ausdrucks. Behält nur die im Ausdruck genannten Spalten bei.

transmute (<new_or_existing_column> = <func(column)>)
Fügt eine neue Spalte hinzu oder überschreibt eine vorhandene Spalte, indem eine Funktion auf die angegebene Spalte angewendet wird. Behält nur die im Ausdruck genannten Spalten bei.

transmute (<new_or_existing_column> = `<column>` <operator> `<column>`)
Fügen Sie eine neue Spalte hinzu oder überschreiben Sie eine vorhandene Spalte, indem Sie einen Operator auf die angegebene Spalte anwenden. Behält nur die im Ausdruck genannten Spalten bei.

transmute (<new_or_existing_column> = `<column>`, <new_or_existing_column> = `<column>`)
Fügen Sie mehrere neue Spalten hinzu. Behält nur die im Ausdruck genannten Spalten bei.

transmute (<new_or_existing_column> = if_else (provide_value, provide_value_for_true, provide_value_for_false))
Fügen Sie eine neue Spalte hinzu oder überschreiben Sie eine vorhandene Spalte mithilfe der angegebenen Bedingungsausdrücke. Behält nur die in den Ausdrücken genannten Spalten bei.

ungroup

unroup ()
Gruppierung der Daten aufheben.

Funktionen

Aggregieren

  • mean
  • min
  • n
  • sd
  • Summe

Logisch

  • is.na

Numerisch

  • abs
  • coalesce
  • cut
  • exp
  • floor

Text

  • c
  • coalesce
  • paste
  • tolower
  • toupper

Typ

  • as.character
  • as.double
  • as.integer
  • as.logical

Logische Operatoren

  • <
  • <=
  • >=
  • >
  • between
  • !=
  • ==
  • %in%

Übergeordnetes Thema: Daten optimieren

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen