0 / 0
Zurück zur englischen Version der Dokumentation
BEREINIGEN
Letzte Aktualisierung: 21. Juni 2024
BEREINIGEN

Data Refinery unterstützt die folgenden Kategorien von GUI-Operationen:

Klicken Sie auf Neuer Schritt, um eine GUI-Operation auszuwählen.

Eine Untergruppe der Operationen ist über das Symbol Überlauf Überlaufmenüjeder Spalte verfügbar. Sie können eine Spalte umbenennen, indem Sie auf das Symbol Bearbeiten Bearbeitungssymbol in der Spaltenüberschrift klicken.

Spaltentyp konvertieren
Wenn Sie eine Datei in Data Refinery öffnen, wird im ersten Schritt automatisch die Operation Spaltentyp konvertieren angewendet, wenn in den Daten ein Datentyp erkannt wird, der keine Zeichenfolgen enthält. Datentypen werden automatisch in abgeleitete Datentypen konvertiert. Klicken Sie zum Ändern der automatischen Konvertierung für eine ausgewählte Spalte auf das Symbol Überlauf Überlaufmenü für den Schritt und wählen Sie Bearbeitenaus. Wie bei jeder anderen Operation auch können Sie den Schritt rückgängig machen. Die Operation Spaltentyp konvertieren wird jedes Mal erneut angewendet, wenn Sie die Datei in Data Refinery öffnen. Die automatische Konvertierung wird nur bei Bedarf auf dateibasierte Datenquellen angewendet. (Dies gilt nicht für eine Datenquelle aus einer Datenbankverbindung.)

Um zu bestätigen, in welchen Datentyp die Daten der einzelnen Spalten konvertiert wurden, wählen Sie Bearbeiten über das Symbol Überlauf Überlaufmenü aus, um die Datentypen anzuzeigen. Die Informationen enthalten das Format für Datums- oder Zeitmarkendaten.

Wenn die Daten in einen Datentyp 'Integer' oder 'Decimal' konvertiert werden, können Sie das Dezimalzeichen und das Tausendertrennzeichen für alle zutreffenden Spalten angeben. Zeichenfolgen, die in den Datentyp 'Decimal' konvertiert werden, verwenden einen Punkt als Dezimalzeichen und ein Komma als Tausendertrennzeichen. Alternativ können Sie das Komma als Dezimalzeichen und den Punkt als Tausendertrennzeichen auswählen. Das Dezimalzeichen und das Tausendertrennzeichen dürfen nicht identisch sein.

Die Quellendaten werden von links nach rechts gelesen, bis ein Abschlusszeichen oder ein unbekanntes Zeichen auftritt. Wenn Sie beispielsweise Zeichenfolgedaten 12,834 in Dezimaldaten konvertieren und nicht angeben, was mit dem Komma (,) geschehen soll, werden die Daten auf 12 abgeschnitten. Wenn die Quellendaten mehrere Punkte (.) enthalten und Sie den Punkt als Dezimalzeichen auswählen, wird der erste Punkt als Dezimaltrennzeichen verwendet und die auf den zweiten Punkt folgenden Ziffern werden abgeschnitten. Die Quellenzeichenfolge 1.834.230,000 wird in den Wert 1.834 konvertiert.

Die Operation Spaltentyp konvertieren konvertiert automatisch die folgenden Datums- und Zeitmarkenformate:

  • Datum: ymd, ydm
  • Zeitmarke: ymdHMS, ymdHM, ydmHMS, ydmHM

In Datums- und Zeitmarkenzeichenfolgen müssen vier Ziffern für das Jahr verwendet werden.

Sie können die Operation Spaltentyp konvertieren jederzeit manuell anwenden, um den Datentyp einer Spalte im Data Refinery-Ablauf zu ändern. Sie können eine neue Spalte erstellen, die künftig das Ergebnis dieser Operation enthält, oder Sie lassen die vorhandene Spalte überschreiben.

Tipp: Der Datentyp einer Spalte bestimmt die Operationen, die Sie verwenden können. Eine Änderung des Datentyps kann sich darauf auswirken, welche Operationen für die betreffende Spalte relevant sind.


Video: Operation 'Spaltentyp konvertieren'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Spaltentyp konvertieren' wird die erste Spalte automatisch von 'String' in 'Integer' konvertiert. Ändern Sie jetzt die Datentypen der anderen drei Spalten.
  2. Um den Datentyp der Spalte 'european' von einer Zeichenfolge ('String') in einen Dezimaltyp ('Decimal') zu ändern, wählen Sie die Spalte aus und bearbeiten Sie anschließend den Schritt "Spaltentypoperation konvertieren".
  3. Um den Datentyp der Spalte 'european' von einer Zeichenfolge ('String') in einen Dezimaltyp ('Decimal') zu ändern, wählen Sie die Spalte aus und bearbeiten Sie anschließend den Schritt "Spaltentypoperation konvertieren".
  4. Wählen Sie 'Decimal' aus.
  5. In der Spalte wird das Komma als Trennzeichen verwendet. Wählen Sie daher als Dezimalzeichen das 'Komma (,)' aus.
  6. Wählen Sie die nächste Spalte (DATETIME) aus. Wählen Sie Zeitmarke und ein Format aus.
  7. Klicken Sie auf Anwenden.
  8. Die Spalten weisen jetzt die Datentypen 'Integer', 'Decimal', 'Date' und 'Timestamp' auf. Der Schritt 'Spaltentyp konvertieren' in der Anzeige 'Schritte' wird aktualisiert.

Spaltenwert in fehlenden Wert konvertieren
Konvertieren Sie Werte in der ausgewählten Spalte in fehlende Werte, wenn sie mit Werten in der angegebenen Spalte oder mit einem angegebenen Wert übereinstimmen.


Video: Operation 'Spaltenwert in fehlend konvertieren'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Spaltenwert in fehlend konvertieren' konvertiert die Werte in einer ausgewählten Spalte in fehlende Werte, wenn sie mit den Werten in einer angegebenen Spalte oder mit einem angegebenen Wert übereinstimmen.
  2. Ein fehlender Wert entspricht SQL NULL; dabei handelt es sich um ein Feld ohne Wert. Der Wert unterscheidet sich von einem Nullwert oder einem Wert, der Leerzeichen enthält.
  3. Sie können Operationen des Typs 'Spaltenwert in fehlend konvertieren' verwenden, wenn Sie der Meinung sind, dass es besser ist, die Daten als fehlende Werte darzustellen. Beispiel: Wenn Sie fehlende Werte in einer Operation 'Fehlende Werte ersetzen' oder in einer Filteroperation verwenden möchten.
  4. Verwenden Sie die Operation 'Spaltenwert in fehlend konvertieren', um Werte auf der Basis eines übereinstimmenden Werts in fehlend zu ändern.
  5. Beachten Sie, dass die Spalte DESC viele Zeilen mit dem Wert CANCELLED ORDER aufweist. Konvertieren Sie die Zeichenfolgen CANCELLED ORDER jetzt in fehlende Werte.
  6. Die Operation 'Spaltenwert in fehlend konvertieren' befindet sich unter der Kategorie CLEANSE (BEREINIGEN).
  7. Geben Sie die Zeichenfolge ein, die durch fehlende Werte ersetzt werden soll.
  8. Die Werte, die früher CANCELLED ORDER waren, sind jetzt fehlende Werte.

Datums- oder Zeitwert extrahieren
Extrahieren Sie einen ausgewählten Teil eines Datums- oder Zeitwerts aus einer Spalte mit einem Datums- oder Zeitmarkendatentyp.


Video: Operation 'Datum oder Zeitwert extrahieren'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Datums- oder Zeitwert extrahieren' extrahiert einen ausgewählten Teil eines Datums- oder Zeitwerts aus einer Spalte, bei der es sich um einen Datentyp des Typs 'date' oder 'timestamp' handelt.
  2. Bei der Spalte DATE handelt es sich um den Datentyp 'string'. Verwenden Sie zuerst die Operation 'Spaltentyp konvertieren', um die Spalte in den Datentyp 'date' zu konvertieren.
  3. Wählen Sie die Operation 'Spaltentyp konvertieren' aus dem Menü der Spalte DATE aus. Wählen Sie 'Datum' aus.
  4. Wählen Sie ein Datumsformat aus.
  5. Die Spalte DATE weist jetzt den Datumstyp 'date' auf.
  6. Das ISO-Datumsformat wird verwendet, wenn der Datentyp 'string' in den Datentyp 'date' konvertiert wurde. Beispiel: Die Zeichenfolge 01/08/2018 wurd in das Datum 2018-01-08 konvertiert.
  7. Jetzt können Sie den Jahresteil (year) des Datums in eine neue Spalte extrahieren.
  8. Die Operation 'Datums- oder Zeitwert extrahieren' befindet sich unter der Kategorie CLEANSE (BEREINIGEN).
  9. Wählen Sie 'year' für den Teil des zu extrahierenden Datums aus und geben Sie YEAR als neuen Spaltennamen ein.
  10. Der Jahresteil der Spalte DATE befindet sich in der neuen Spalte 'YEAR'.
  11. Die Operation 'Datums- oder Zeitwert extrahieren' wird in der Anzeige 'Schritte' angezeigt.

Filter
Filtern Sie Zeilen nach den ausgewählten Spalten. Sie können Zeilen mit ausgewählten Spaltenwertenbeibehalten und alle anderen Zeilen herausfiltern.

Setzen Sie bei diesen Filter-Zeichenfolgeoperatoren den Wert nicht in Anführungszeichen. Wenn der Wert Anführungszeichen enthält, versehen Sie diese mit einem Schrägstrich als Escapezeichen. Beispiel: \"text\":

  • Enthält
  • Enthält nicht
  • Beginnt mit
  • Beginnt nicht mit
  • Endet auf
  • Endet nicht auf

Im Folgenden sind die Operatoren für numerische, Zeichenfolge- und boolesche (logische) sowie Datums- und Zeitmarkenspalten aufgeführt:

Bediener Numerisch Zeichenfolge boolesch Datum und Zeitmarke
Enthält
Enthält nicht
Endet nicht auf
Beginnt nicht mit
Endet mit
Liegt zwischen zwei Zahlen
Ist leer
Entspricht
Ist falsch
Ist größer als
Ist größer-gleich
Ist in
Ist kleiner als
Ist kleiner-gleich
Ist nicht leer
Ist nicht gleich
Ist nicht in
Ist nicht null
Ist Null
Ist wahr
Beginnt mit

Video: Operation 'Filtern'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Verwenden Sie die Operation 'Filtern', um Zeilen nach den ausgewählten Spalten zu filtern. Sie können mehrere Bedingungen in einer Filteroperation anwenden.
  2. Verwenden Sie einen regulären Ausdruck, um alle Zeilen auszufiltern, mit Ausnahme der Zeilen, bei denen die Zeichenfolge in der Spalte 'Emp ID' mit 8 beginnt.
  3. Filtern Sie die Zeilen anhand von zwei Bundesstaatenkürzeln.
  4. Klicken Sie auf Anwenden. In der Tabelle befinden sich nur die Zeilen, in denen die Spalte 'Emp ID' mit 8 beginnt und der Bundesstaat (State) 'AR' oder 'TX' lautet.
  5. Die Zeilen werden nun nach AR und PA gefiltert. Der Schritt "Filtern" in der Anzeige "Schritte" wird aktualisiert.

Spalte entfernen
Entfernen Sie die ausgewählte Spalte.


Video: Operation 'Spalte entfernen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Spalte entfernen' können Sie schnell eine Spalte aus einem Datenasset entfernen.
  2. Eine Spalte kann am schnellsten über das Menü der Spalte entfernt werden.
  3. Der Name der entfernten Spalte erscheint in der Anzeige 'Schritte'.
  4. Entfernen Sie eine weitere Spalte.
  5. Der Name der entfernten Spalte erscheint in der Anzeige 'Schritte'.

Duplikate entfernen
Entfernen Sie Zeilen mit doppelten Spaltenwerten.


Video: Operation 'Duplikate entfernen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Duplikate entfernen' werden Zeilen entfernt, die doppelte Spaltenwerte aufweisen.
  2. Das Dataset enthält 43 Zeilen. Viele der Zeilen in der Spalte APPLYCODE haben doppelte Werte. Sie möchten das Dataset auf die Zeilen reduzieren, in denen jeder Wert in der Spalte APPLYCODE nur einmal vorkommt.
  3. Wählen Sie die Operation 'Duplikate entfernen' aus dem Menü der Spalte APPLYCODE aus.
  4. Die Operation 'Duplikate entfernen' hat jedes Vorkommen eines doppelten Werts entfernt. Das Dataset besteht jetzt aus 4 Zeilen.

Leere Zeilen entfernen
Entfernen Sie Zeilen mit einem leeren oder fehlenden Wert für die ausgewählte Spalte.


Video: Operation 'Leere Zeilen entfernen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Leere Zeilen entfernen' werden Zeilen entfernt, die einen leeren oder fehlenden Wert für die ausgewählte Spalte aufweisen.
  2. Ein fehlender Wert entspricht SQL NULL; dabei handelt es sich um ein Feld ohne Wert. Der Wert unterscheidet sich von einem Nullwert oder einem Wert, der Leerzeichen enthält.
  3. Das Dataset enthält 43 Zeilen. Viele der Zeilen in der Spalte TRACK haben fehlende Werte. Reduzieren Sie das Dataset auf die Zeilen die über einen Wert in der Spalte TRACK verfügen.
  4. Wählen Sie im Menü der Spalte TRACK die Operation 'Leere Zeilen entfernen' aus.
  5. Die Operation 'Leere Zeilen entfernen' entfernt jede Zeile, die einen leeren oder fehlenden Wert in der Spalte TRACK aufweist. Das Dataset besteht jetzt aus 21 Zeilen.

Fehlende Werte ersetzen
Ersetzen Sie fehlende Werte in der Spalte durch einen angegebenen Wert oder durch den Wert aus einer angegebenen Spalte in derselben Zeile.


Video: Operation 'Fehlende Werte ersetzen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Fehlende Werte ersetzen' ersetzt fehlende Werte in einer Spalte durch einen angegebenen Wert oder durch den Wert aus einer angegebenen Spalte in derselben Zeile.
  2. Die Spalte STATE enthält viele Zeilen mit leeren Werten. Diese leeren Werte sollten durch eine Zeichenfolge ersetzt werden.
  3. Die Operation 'Fehlende Werte ersetzen' befindet sich unter der Kategorie CLEANSE (BEREINIGEN).
  4. Ersetzen Sie für die Spalte STATE die fehlenden Werte durch die Zeichenfolge 'Incomplete' (Unvollständig).
  5. Die fehlenden Werte haben nun den Wert 'Incomplete'.
  6. Die Operation 'Fehlende Werte ersetzen' wird in der Anzeige 'Schritte' angezeigt.

Unterzeichenfolge ersetzen
Ersetzen Sie die angegebene Unterzeichenfolge durch den angegebenen Text.


Video: Operation 'Teilzeichenfolge ersetzen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Teilzeichenfolge ersetzen' ersetzt eine Teilzeichenfolge durch den von Ihnen angegebenen Text.
  2. Die Spalte DECLINE enthält viele Zeilen, die die Zeichenfolge BANC enthalten. Diese Zeichenfolge soll durch BANK ersetzt werden.
  3. Die Operation 'Teilzeichenfolge ersetzen' befindet sich unter der Kategorie CLEANSE (BEREINIGEN).
  4. Geben Sie die zu ersetzende Zeichenfolge und die Ersatzzeichenfolge ein.
  5. Alle Vorkommen der String BANC wurden durch BANK ersetzt.
  6. Die Operation 'Teilzeichenfolge ersetzen' wird in der Anzeige 'Schritte' angezeigt.

Ersetzen
Machen Sie sensible Informationen in der Ansicht unkenntlich, indem Sie eine beliebige Zeichenfolge anstelle der tatsächlichen Daten in der ausgewählten Spalte einsetzen.


Video: Operation 'Ersetzen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Ersetzen' macht sensible Informationen unkenntlich, indem Daten in der ausgewählten Spalte durch eine zufällige Zeichenfolge ersetzt werden.
  2. Am schnellsten können Sie die Daten in einer Spalte ersetzen, indem Sie im Menü der Spalte die Option 'Ersetzen' auswählen.
  3. Die Ersetzungsoperation wird in der Anzeige 'Schritte' angezeigt.
  4. Ersetzen Sie die Werte in einer weiteren Spalte.
  5. Die zweite Ersetzungsoperation wird in der Anzeige 'Schritte' angezeigt.

Text

Sie können Textoperationen nur auf Zeichenfolgespalten anwenden. Sie können eine neue Spalte erstellen,um das Ergebnis einer Operation zu speichern, oder Sie können die vorhandene Spalte überschreiben.

Text > Leerzeichen ausblenden
Mehrere aufeinanderfolgende Leerzeichen im Text werden zu einem einzelnen Leerzeichen zusammengefasst.

Text > Zeichenfolge verknüpfen
Verknüpfen Sie eine beliebige Zeichenfolge mit dem Text. Sie können die Zeichenfolge dem Text voranstellen,die Zeichenfolge an den Text anhängen oder beides.

Text > Kleinbuchstaben
Konvertieren Sie den Text in Kleinbuchstaben.

Text > Anzahl der Zeichen
Gibt die Anzahl der Zeichen im Text zurück.

Text > Füllzeichen
Füllen Sie den Text mit der angegebenen Zeichenfolge auf. Geben Sie an, ob der Text auf der linken, auf der rechtenoder auf beiden Seiten aufgefüllt werden soll.

Text > Unterzeichenfolge
Erstellen Sie Unterzeichenfolgen aus dem Text, der an der angegebenen Position beginnt und die angegebene Länge hat.

Text > Schreibweise für Titel
Konvertieren Sie den Text in die Titelschreibweise.

Text > Anführungszeichen trimmen
Entfernen Sie einfache oder doppelte Anführungszeichen aus dem Text.

Text > Leerzeichen trimmen
Entfernen Sie führende, abschließende und zusätzliche Leerzeichen aus dem Text.

Text > Großbuchstaben
Konvertieren Sie den Text in Großbuchstaben.


Video: Textoperation

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Sie können eine Textoperation auf Zeichenfolgenspalten (string) anwenden. Erstellen Sie eine neue Spalte für das Ergebnis oder überschreiben Sie die vorhandene Spalte.
  2. Verknüpfen Sie zuerst eine Zeichenfolge mit den Werten in der Spalte WORD.
  3. Verfügbare Textoperationen.
  4. Verknüpfen Sie die Zeichenfolge nach rechts, hängen Sie ein Leerzeichen an und geben Sie 'up' ein.
  5. Den Werten in der Spalte WORD wird ein Leerzeichen und das Wort 'up' angehängt.
  6. Die Textoperation wird in der Anzeige 'Schritte' angezeigt.
  7. Als Nächstes füllen Sie die Werte in der Spalte ANIMAL mit einer Zeichenfolge auf.
  8. Füllen Sie die Werte in der Spalte ANIMAL mit Et-Zeichen (&) nach rechts für mindestens 7 Zeichen auf.
  9. Die Werte in der Spalte ANIMAL werden mit dem &-Symbol aufgefüllt, so dass jede Zeichenfolge mindestens sieben Zeichen umfasst.
  10. Beachten Sie, dass die Werte 'opossum', 'pangolin', 'platypus' und 'hedgehog' nicht über ein Auffüllzeichen verfügen, da diese Zeichenfolgen bereits sieben oder mehr Zeichen lang waren.
  11. Verwenden Sie als Nächstes eine Teilzeichenfolge, um das t-Zeichen aus der Spalte ID zu entfernen.
  12. Wählen Sie 'Position 2' aus, um die neue Zeichenfolge an dieser Position zu starten. Wählen Sie 'Länge 4' für eine aus vier Zeichen bestehende Zeichenfolge aus.
  13. Das erste 't'-Zeichen in der Spalte ID wird in der Spalte NEW-ID entfernt.

COMPUTE (BERECHNEN)

Berechnen
Führen Sie eine Berechnung mit einer anderen Spalte oder mit einem angegebenen Wert durch. Die folgenden Operatoren sind verfügbar:

  • Hinzufügung
  • Geschäftsbereich
  • Exponentialfunktion
  • Liegt zwischen zwei Zahlen
  • Entspricht
  • Ist größer als
  • Ist größer-gleich
  • Ist kleiner als
  • Ist kleiner-gleich
  • Ist nicht gleich
  • Modulus
  • Multiplikation
  • Subtraktion

Video: Operation 'Berechnen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Berechnen' führt eine Berechnung, beispielsweise eine Addition oder Subtraktion, mit einer anderen Spalte oder mit einem angegebenen Wert durch.
  2. Wählen Sie zunächst die Spalte aus, mit der begonnen werden soll.
  3. Verfügbare Berechnungen
  4. Wählen Sie nun die zweite Spalte für die Berechnung des Typs 'Addition' aus.
  5. Und wenden Sie die Änderung an.
  6. Die Spalte 'id' wird aktualisiert und die Anzeige 'Schritte' enthält die abgeschlossene Operation.
  7. Sie können auch über das Menü der Spalte auf die Operationen zugreifen.
  8. Dieses Mal wählen Sie 'Liegt zwischen zwei Werten' aus. Geben Sie den Bereich an und erstellen Sie eine neue Spalte für die Ergebnisse.
  9. Die neue Spalte wird in der Tabelle angezeigt und die neue Berechnungsoperation erscheint in der Anzeige 'Schritte'.
  10. Wählen Sie dieses Mal 'Ist gleich' aus, um zwei Spalten zu vergleichen, und erstellen Sie eine neue Spalte für die Ergebnisse.
  11. Die neue Spalte wird in der Tabelle angezeigt und die neue Berechnungsoperation erscheint in der Anzeige 'Schritte'.

Mathematisches Symbol

Sie können mathematische Operationen nur auf numerische Spalten anwenden. Sie können eine neue Spalte erstellen,um das Ergebnis einer Operation zu speichern, oder Sie können die vorhandene Spalte überschreiben.

Mathematik > Absolutwert
Rufen Sie den absoluten Wert einer Zahl ab.
Beispiel: Der Absolutwert von 4 und -4 ist 4.

Mathematik > Arcus Cosinus
Grufen Sie den Arcus Cosinus eines Winkels ab.

Mathematik > Obergrenze
Rufen Sie die nächste ganze Zahl mit einem höheren Wert ab. Diese wird auch als Obergrenze der Zahl bezeichnet.
Beispiele: Die Obergrenze von 2.31 ist 3. Die Obergrenze von -2,31 ist -2.

Mathematik > Exponent
Rufen Sie eine Zahl ab, die zur Potenz des Spaltenwerts potenziert wird.

Mathematik > Untergrenze
Rufen Sie die nächste ganze Zahl mit niedrigerem Wert ab. Diese wird auch als Untergrenze der Zahl bezeichnet.
Beispiel: Die Untergrenze von 2.31 ist 2. Die Untergrenze von -2,31 ist -3.

Mathematik > Runden
Rufen Sie die ganze Zahl ab, die dem Spaltenwert am nächsten liegt. Ist der Spaltenwert eine Ganzzahl, wird dieser zurückgegeben.

Mathematik > Quadratwurzel
Rufen Sie die Quadratwurzel des Spaltenwerts ab.


Video: Mathematische Operationen

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Wenden Sie eine mathematische Operation auf die Werte in einer Spalte an. Erstellen Sie eine neue Spalte für die Ergebnisse oder überschreiben Sie die vorhandene Spalte.
  2. Verfügbare mathematische Operationen
  3. Wenden Sie 'Absoluter Wert' auf die Werte der Spalte an.
  4. Erstellen Sie eine neue Spalte für Ergebnisse.
  5. Die neue Spalte wird der Tabelle hinzugefügt und die mathematische Operation wird in der Anzeige 'Schritte' angezeigt.
  6. Sie können auch über das Menü der Spalte auf die Operation zugreifen.
  7. Wenden Sie 'Runden' auf die Werte der Spalte 'ANGLE' an.
  8. Erstellen Sie eine neue Spalte für Ergebnisse.
  9. Die neue Spalte wird der Tabelle hinzugefügt, und die neue mathematische Operation wird in der Anzeige 'Schritte' angezeigt.

ORGANISIEREN

Aggregieren
Wenden Sie Auswertungsberechnungen auf die Werte einer oder mehrerer Spalten an. Bei jeder Aggregation wird eine neue Spalte erstellt. Wählen Sie optional Nach Spalten gruppieren aus, um die neue Spalte anhand einer anderen Spalte zu gruppieren, die ein Merkmal der Gruppe definiert, beispielsweise eine Abteilung oder eine ID. Zum Gruppieren dieser Art können mehrere Spalten verwendet werden. Sie können mehrere Aggregationen in einer einzigen Operation miteinander kombinieren.

Welche Aggregatoperationen verfügbar sind, hängt jeweils vom Datentyp ab.

Numerische Daten:

  • Eindeutige Werte zählen
  • Mindestwert
  • Maximal
  • Summe
  • Standardabweichung
  • Mittelwert

Zeichenfolgedaten:

  • Zeilenwerte kombinieren
  • Eindeutige Werte zählen

Video: Operation 'Aggregieren'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Aggregieren' wendet Auswertungsberechnungen auf die Werte von mindestens einer Spalte an. Bei jeder Aggregation wird eine neue Spalte erstellt.
  2. Verfügbare Aggregationen hängen davon ab, ob es sich bei den Daten um numerische Daten oder Zeichenfolgedaten handelt.
  3. Die verfügbaren Operatoren hängen vom Datentyp der Spalte ab. Verfügbare Operatoren für numerische Daten.
  4. Wenn die Textspalte 'UniqueCarrier' ausgewählt ist, werden die verfügbaren Operatoren für Zeichenfolgedaten angezeigt.
  5. Sie zählen jetzt, wie viele eindeutige Werte in der Spalte 'UniqueCarrier' enthalten sind. Diese Aggregation zeigt, wie viele Fluggesellschaften im Dataset vorhanden sind.
  6. Es gibt 22 Fluggesellschaften in der neuen Spalte 'Airlines'. Die anderen Spalten werden gelöscht.
  7. Die Operation 'Aggregieren' wird in der Anzeige 'Schritte' angezeigt.
  8. Zeigen Sie nun eine Aggregation zu numerischen Daten an.
  9. Zeigen Sie den Durchschnittswert (Mittelwert) der Verspätungen bei Ankünften an.
  10. Der Durchschnittswert aller Verzögerungen bei Ankünften befindet sich in der neuen Spalte 'MeanArrDelay'. Die anderen Spalten werden gelöscht.
  11. Sie können die zusammengefasste Spalte auch anhand einer anderen Spalte gruppieren, die ein Merkmal der Gruppe definiert.
  12. Bearbeiten Sie nun den Schritt zum Aggregieren, indem sie eine Gruppe durch Auswahl hinzufügen, so dass Sie den Durchschnitt der Verspätungen bei Ankünften nach Fluggesellschaft sehen können.
  13. Gruppieren Sie die Ergebnisse anhand der Spalte 'UniqueCarrier'.
  14. Die durchschnittlichen Verzögerungen bei Ankünften sind nun nach Fluggesellschaft gruppiert.
  15. Die Operation 'Aggregieren' wird in der Anzeige 'Schritte' angezeigt.

Verketten
Verketten Sie die Werte von mindestens zwei Spalten.


Video: Operation 'Verknüpfen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Verknüpfen' verknüpft die Werte aus zwei oder mehr Spalten.
  2. Die Operation 'Verknüpfen' befindet sich unter der Kategorie ORGANIZE (ORGANISIEREN).
  3. Wählen Sie die Spalten aus, die verknüpft werden sollen.
  4. Wählen Sie ein Trennzeichen aus, das zwischen den verknüpften Werten verwendet werden soll.
  5. Geben Sie einen Namen für die Spalte für die verknüpften Werte ein.
  6. Die neue Spalte kann als Spalte ganz rechts im Dataset oder neben der ursprünglichen Spalte angezeigt werden.
  7. Behalten Sie die ursprünglichen Spalten bei und wenden Sie die Änderungen an.
  8. In der neuen Spalte DATE werden die verknüpften Werte aus den anderen drei Spalten mit einem Semikolon als Trennzeichen angezeigt.
  9. Die Operation 'Verknüpfen' wird in der Anzeige 'Schritte' angezeigt.
  10. Bei der Spalte DATE handelt es sich um den Datentyp 'string'. Verwenden Sie nun die Operation 'Spaltentyp konvertieren', um sie in den Datentyp 'date' zu konvertieren.
  11. Wählen Sie die Operation 'Spaltentyp konvertieren' aus dem Menü der Spalte DATE aus. Wählen Sie 'Datum' aus.
  12. Wählen Sie ein Datumsformat aus und erstellen Sie eine neue Spalte für das Ergebnis.
  13. Platzieren Sie die neue Spalte neben der ursprünglichen Spalte und wenden Sie die Änderungen an.
  14. Die neue Spalte wird mit dem konvertierten Datumsformat angezeigt.
  15. Die Operation 'Spaltentyp konvertieren' wird in der Anzeige 'Schritte' angezeigt.
  16. Das ISO-Datumsformat wird verwendet, wenn der Datentyp 'string' in den Datentyp 'date' konvertiert wurde. Beispiel: Die Zeichenfolge '2004;2;3' wurde in das Datum 2004-02-03 konvertiert.

Bedingtes Ersetzen
Ersetzen Sie die Werte in einer Spalte anhand von Bedingungen.


Video: Operation 'Bedingtes Ersetzen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Verwenden Sie die Operation 'Bedingtes Ersetzen', um die Werte in einer Spalte auf der Basis von Bedingungen zu ersetzen.
  2. Geben Sie zunächst Bedingungen an, um Daten in der Zeichenfolgespalte CODE zu ersetzen und eine neue Spalte für die Ergebnisse zu erstellen.
  3. Verfügbare Bedingungsoperatoren für Zeichenfolgedaten.
  4. Fügen Sie die erste Bedingung hinzu: CONDITION 1: CODE Is equal to value C replace with COMPLETE.
  5. Fügen Sie eine zweite Bedingung hinzu: CONDITION 2: CODE Is equal to value I replace with INCOMPLETE.
  6. Geben Sie an, was mit Werten zu tun ist, die die Bedingungen nicht erfüllen. Hier geben Sie zwei doppelte Anführungszeichen ein, um eine leere Zeichenfolge anzugeben.
  7. Erstellen Sie eine neue Spalte für die Ergebnisse.
  8. Die neue Spalte STATUS enthält die bedingten Ersetzungswerte aus der Spalte CODE.
  9. Die Operation 'Bedingtes Ersetzen' wird in der Anzeige 'Schritte' angezeigt.
  10. Als Nächstes geben Sie die Bedingungen an, um die Daten in der Ganzzahlspalte INPUT zu ersetzen, und erstellen eine neue Spalte für die Ergebnisse.
  11. Verfügbare Bedingungsoperatoren für numerische Daten.
  12. Fügen Sie die erste Bedingung hinzu: CONDITION 1: INPUT Is less than or equal to value 3 replace with value LOW.
  13. Fügen Sie die zweite Bedingung hinzu: CONDITION 2: INPUT Is in values 4,5,6 replace with value MED.
  14. Fügen Sie eine dritte Bedingung hinzu: CONDITION 3: INPUT Is greater than or equal to value 7 replace with value HIGH.
  15. Geben Sie an, was mit Werten zu tun ist, die die Bedingungen nicht erfüllen.
  16. Erstellen Sie eine neue Spalte für die Ergebnisse.
  17. Die neue Spalte RATING enthält die bedingten Ersetzungswerte aus der Spalte INPUT.
  18. Die Operation 'Bedingtes Ersetzen' wird in der Anzeige 'Schritte' angezeigt.

Verknüpfen
Kombinieren Sie Daten aus zwei Datasets auf der Basis eines Vergleichs der Werte in angegebenen Schlüsselspalten. Geben Sie an, welcher Typ von Verknüpfung erfolgen soll, wählen Sie die Spalten (Joinschlüssel) in den beiden Datasets aus, die Sie vergleichen möchten, und wählen Sie die Spalten aus, die das als Ergebnis hervorgehende Dataset enthalten soll.

Die Joinschlüsselspalten in den beiden Datasets müssen kompatible Datentypen aufweisen. Wenn die Operation Verknüpfen der erste Schritt ist, den Sie hinzufügen, überprüfen Sie, ob die Operation Spaltentyp konvertieren den Datentyp der Joinschlüsselspalten im ersten Dataset beim Öffnen der Datei in Data Refinery automatisch konvertiert hat. Je nachdem, wo sich die Operation Verknüpfen im Data Refinery-Ablauf befindet, können Sie mit der Operation Spaltentyp konvertieren außerdem sicherstellen, dass die Datentypen der Joinschlüsselspalten übereinstimmen. Klicken Sie auf einen vorherigen Schritt in der Anzeige Schritte, um die Snapshotansicht des Schritts anzuzeigen.

Es gibt die folgenden Jointypen:

Jointyp Beschreibung
Left join (Linker Join) Gibt alle Zeilen im ursprünglichen Dataset und nur die übereinstimmenden Zeilen in dem für die Verknüpfung verwendeten Dataset zurück. Gibt eine Zeile im ursprünglichen Dataset für jede übereinstimmende Zeile im Join-Dataset zurück.
Right join (Rechter Join) Gibt alle Zeilen im für die Verknüpfung verwendeten Dataset und nur die übereinstimmenden Zeilen im ursprünglichen Dataset zurück. Gibt eine Zeile im Join-Dataset für jede übereinstimmende Zeile im ursprünglichen Dataset zurück.
Inneres Join Gibt nur die Zeilen in jedem Dataset zurück, die mit Zeilen in dem anderen Dataset übereinstimmen. Gibt eine Zeile im ursprünglichen Dataset für jede übereinstimmende Zeile im Join-Dataset zurück.
Full join (Vollständiger Join) Gibt alle Zeilen in beiden Dataset zurück. Mischt Zeilen im ursprünglichen Dataset mit übereinstimmenden Zeilen im Join-Dataset.
Semi-Join Gibt nur die Zeilen aus dem ursprünglichen Dataset zurück, die Zeilen im Join-Dataset entsprechen. Gibt eine Zeile im ursprünglichen Dataset für alle übereinstimmenden Zeilen im Join-Dataset zurück.
Anti-Join Gibt nur die Zeilen aus dem ursprünglichen Dataset zurück, die keinen Zeilen im Join-Dataset entsprechen.

Video: Operation 'Join'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Das Dataset 'customers.csv' enthält Informationen zu den Kunden Unternehmens und das Dataset 'sales.csv' Informationen zu den Vertriebsbeauftragten Ihres Unternehmens.
  2. Die Datasets teilen die Spalte SALESREP_ID.
  3. Das Dataset 'customers.csv' ist in Data Refinery geöffnet.
  4. Durch die Operation 'Join' können die Daten aus diesen beiden Datasets basierend auf einem Vergleich der Werte in der Spalte SALESREP_ID kombiniert werden.
  5. Sie möchten einen Inner Join (Innerer Join) durchführen, um nur die Zeilen in jedem Dataset zurückzugeben, die mit Zeilen in dem anderen Dataset übereinstimmen.
  6. Sie können ein benutzerdefiniertes Suffix hinzufügen, das an Spalten angehängt werden soll, die in beiden Datasets vorhanden sind, um das Quellendataset für diese Spalte anzuzeigen.
  7. Wählen Sie das Dataset 'sales.csv' aus, um es mit dem Dataset 'customers.csv' zu verknüpfen.
  8. Beginnen Sie für den Joinschlüssel mit der Eingabe des Spaltennamens, um eine gefilterte Liste anzuzeigen. Die beiden Datasets sind über die Spalte SALESREP_ID verknüpft.
  9. Wählen Sie anschließend die Spalten aus, die eingeschlossen werden sollen. Doppelte Spalten werden mit angehängtem Suffix angezeigt.
  10. Wenden Sie jetzt die Änderungen an.
  11. Die Operation 'Join' wird in der Anzeige 'Schritte' angezeigt.
  12. Das Dataset ist jetzt mit den Spalten aus den Datasets 'customers.csv' und 'sales.csv' aufbereitet.

Spalte umbenennen
Benennen Sie die ausgewählte Spalte um.


Video: Operation 'Spalte umbenennen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Spalte umbenennen' können Sie eine Spalte schnell umbenennen.
  2. Die schnellste Möglichkeit, eine Spalte umzubenennen, besteht darin, den Spaltennamen der Spalte in der Tabelle zu bearbeiten.
  3. Bearbeiten Sie den Namen und drücken Sie die Eingabetaste auf Ihrer Tastatur.
  4. Im Schritt 'Spalte umbenennen' werden der alte und der neue Name angezeigt.
  5. Benennen Sie jetzt eine weitere Spalte um.
  6. Die Anzeige 'Schritte' zeigt, dass die Spalte BANKS in DOGS umbenannt wurde.
  7. Benennen Sie nun die letzte Spalte um.
  8. Die Anzeige 'Schritte' zeigt, dass die Spalte RATIOS in BIRDS umbenannt wurde.

Beispiel
Generieren Sie eine Untergruppe Ihrer Daten mit einer der folgenden Methoden: Stichprobenschritte durch Benutzerschnittstellenoperationen gelten nur bei Ausführung des Ablaufs.

  • Zufallsstichprobe: Jeder Datensatz der Untergruppe hat die gleiche Wahrscheinlichkeit, ausgewählt zu werden.
  • Geschichtete Stichprobe: Unterteilen Sie die Daten in eine oder mehrere Untergruppen, die als Schichten (Strata) bezeichnet werden. Generiert dann eine Zufallsstichprobe, die Daten aus jeder Untergruppe enthält.

Video: Beispieloperation

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Stichprobe erstellen' generiert eine Teilmenge Ihrer Daten.
  2. Verwenden Sie die Operation 'Stichprobe erstellen', wenn Sie über eine große Datenmenge verfügen und an einer repräsentativen Stichprobe für eine schnellere Prototyperstellung arbeiten möchten.
  3. Die Operation 'Stichprobe erstellen' befindet sich in der Kategorie ORGANIZE (ORGANISISIEREN).
  4. Wählen Sie eine der beiden Methoden zum Erstellen einer Stichprobe aus.
  5. Mit einer Zufallsstichprobe hat jede Zeile eine gleiche Wahrscheinlichkeit, in die Stichprobendaten aufgenommen zu werden.
  6. Sie können eine Zufallsstichprobe anhand der Anzahl der Zeilen oder anhand des Prozentsatzes der Daten auswählen.
  7. Eine geschichtete Stichprobe baut auf einer Zufallsstichprobe auf. Wie bei einer Zufallsstichprobe geben Sie die Menge an Daten in der Stichprobe (Zeilen oder Prozentsatz) an.
  8. Mit einer geschichteten Stichprobe teilen Sie die Daten in eine oder mehrere Untergruppen, die als Schichten (Strata) bezeichnet werden. Anschließend generieren Sie eine Zufallsstichprobe, die angepasste Daten aus jeder Untergruppe enthält.
  9. Wenn Sie für die Methode 'Automatisch' auswählen, wählen Sie eine Spalte für die Schicht aus.
  10. Wenn Sie 'Manuell' auswählen, geben Sie eine oder mehrere Schichten an und legen für jede Schicht Filterbedingungen fest, die die Zeilen in den einzelnen Schichten definieren.
  11. In diesem Beispiel für Flugliniendaten erstellen Sie zwei Schichten. Für eine Schicht wird definiert, dass sie 50 % der Ausgabe die Zielflughäfen New York City enthält, und die zweite Schicht soll eine bestimmte Flugentfernung für die restlichen 50 % definieren.
  12. Geben Sie im Feld 'Details für diese Schicht angeben' den Prozentsatz der Stichprobe ein, der die Bedingungen darstellt, die Sie in dieser ersten Schicht angeben. Die Prozentsätze der Schichten müssen insgesamt 100 % betragen.
  13. Verfügbare Operatoren für Zeichenfolgedaten.
  14. 50 % der Stichprobe enthalten Daten zu den Zielflughäfen New York City.
  15. Klicken Sie auf 'Speichern', um die erste Schicht zu speichern.
  16. Die erste Schicht (angegeben als Strata0) weist eine Bedingung auf. In dieser Schicht müssen 50 % der Stichprobe die Bedingung erfüllen.
  17. Geben Sie im Feld 'Details für diese Schicht angeben' den Prozentsatz der Stichprobe ein, der die Bedingungen darstellt, die Sie in dieser zweiten Schicht angeben.
  18. Verfügbare Operatoren für numerische Daten.
  19. 50 % der Stichprobe sind für Flüge mit einem Entfernung über 500.
  20. Klicken Sie auf 'Speichern', um die zweite Schicht zu speichern.
  21. Die zweite Schicht (angegeben als Strata1) weist eine Bedingung auf. In dieser Schicht müssen 50 % der Stichprobe die Bedingung erfüllen.
  22. Wenn Sie mehrere Schichten verwenden, wendet die Operation 'Stichprobe erstellen' intern eine Filteroperation mit einer OR-Bedingung in den Schichten an. Abhängig von den Daten, den Bedingungen und der Größe der Stichprobe können sich die Ergebnisse der Verwendung einer Schicht mit mehreren Bedingungen von der Verwendung mehrerer Schichten unterscheiden.
  23. Im Gegensatz zu den anderen Data Refinery-Operationen ändert die Operation 'Stichprobe erstellen' das Dataset erst, nachdem Sie einen Job für den Data Refinery-Ablauf erstellt und ausgeführt haben.
  24. Die Operation 'Stichprobe erstellen' wird in der Anzeige 'Schritte' angezeigt.
  25. Das Dataset reicht über 10000 Zeilen.
  26. Speichern und erstellen Sie einen Job für den Data Refinery-Ablauf.
  27. Die neue Assetdatei wird dem Projekt für die Ausgabe des Data Refinery-Ablaufs hinzugefügt.
  28. Sehen Sie sich die Ausgabedatei an.
  29. Es gibt 10 Zeilen (50 % der Stichprobe) mit New York City-Flughäfen in der Spalte 'Dest', jedoch 17 Zeilen in der Spalte 'Distance' mit Werten über 500.
  30. Zu diesen Ergebnissen kommt es, weil die Schichten mit einer OR-Bedingung angewendet wurden und es überlappende Daten für die in den ersten Schichten angegebenen Bedingungen gab, wobei die Zeilen, die anhand der Spalte 'Dest' mit den Flughäfen von New York City gefiltert wurden, Entfernungswerte (Distance) über 500 aufwiesen.
  31. Die Ausgabedatei in Data Refinery zeigt die reduzierte Größe.

Aufsteigend sortieren
Sortieren Sie alle Zeilen in der Tabelle nach der ausgewählten Spalte in aufsteigender Reihenfolge.

Absteigend sortieren
Sortieren Sie alle Zeilen in der Tabelle nach der ausgewählten Spalte in absteigender Reihenfolge.


Video: Sortiervorgang

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Sortieren Sie schnell alle Zeilen in einem Dataset, indem Sie die Zeilen in einer ausgewählten Spalte sortieren.
  2. Spalten können am schnellsten über das Menü der jeweiligen Spalte entfernt werden.
  3. Sie können die Zeilen in aufsteigender oder absteigender Reihenfolge sortieren.
  4. Führen Sie eine aufsteigende Sortierung durch.
  5. Die Reihenfolge aller Zeilen in der Tabelle wird durch den Sortiervorgang der ersten Spalte aktualisiert.
  6. Die Sortieroperation wird in der Anzeige 'Schritte' angezeigt.
  7. Führen Si eine absteigende Sortierung durch.
  8. Die Reihenfolge aller Zeilen in der Tabelle wird durch den Sortiervorgang der zweiten Spalte geändert.
  9. Die zweite Sortieroperation wird in der Anzeige 'Schritte' angezeigt.
  10. Führen Sie eine aufsteigende Sortierung durch.
  11. Die Reihenfolge aller Zeilen in der Tabelle wird durch den Sortiervorgang der dritten Spalte geändert.
  12. Die dritte Sortieroperation wird in der Anzeige 'Schritte' angezeigt.

Spalte teilen
Teilen Sie die Spalte nach nicht alphanumerischen Zeichen, Position, Muster oder Text.


Video: Operation 'Spalte teilen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Spalte teilen' wird eine Spalte auf der Basis von nicht alphanumerischen Zeichen, Text, Muster oder Position in zwei oder mehr Spalten geteilt.
  2. Teilen Sie zunächst die Spalte YMD in die Spalten YEAR, MONTH und DAY auf.
  3. Die Operation 'Spalte teilen' befindet sich in der Kategorie ORGANISIEREN.
  4. Wählen Sie zuerst die zu teilende Spalte YMD aus.
  5. Auf den Registerkarten stehen vier Möglichkeiten zur Verfügung, wie Sie die Spalte aufteilen können.
  6. STANDARD verwendet ein beliebiges nicht alphanumerisches Zeichen, das in den Spaltenwerten enthalten ist, um die Spalte zu teilen.
  7. Bei TEXT wählen Sie ein Zeichen aus oder geben Text ein, um die Spalte zu teilen.
  8. Bei MUSTER geben Sie einen regulären Ausdruck auf der Basis der R-Syntax ein, um zu bestimmen, wo die Spalte geteilt werden soll.
  9. Bei POSITION geben Sie an, an welcher Position die Spalte geteilt werden soll.
  10. Sie möchten die Spalte YMD anhand des Sterns (*), einem nicht-alphanumerisches Zeichen, teilen. Sie wählen daher die Registerkarte STANDARD aus.
  11. Teilen Sie die Spalte YMD in drei neue Spalten auf: YEAR, MONTH und DAY.
  12. Die drei neuen Spalten YEAR, MONTH und DAY werden dem Dataset hinzugefügt.
  13. Die Operation 'Spalten teilen' wird in der Anzeige 'Schritte' angezeigt.
  14. Teilen Sie als Nächstes die Spalte FLIGHT in zwei Spalten: Eine für den Airline-Code und eine für die Flugnummer. Da Airline-Codes aus zwei Zeichen bestehen, können Sie die Spalte nach Position teilen.
  15. Klicken Sie auf die Registerkarte POSITION und geben Sie '2' in das Feld 'Positionen' ein.
  16. Teilen Sie die Spalte FLIGHT in zwei neue Spalten: AIRLINE und FLTNMBR.
  17. Die beiden neuen Spalten AIRLINE und FLIGHTNBR werden dem Datenset hinzugefügt.
  18. Die Operation 'Spalten teilen' wird in der Anzeige 'Schritte' angezeigt.

Union
Kombinieren Sie die Zeilen aus zwei Datasets, die dasselbe Schema gemeinsam nutzen, und filtern Sie die Duplikate heraus. Wenn Sie Unterschiedliche Anzahl von Spalten zulassen und doppelte Werte zulassen auswählen, ist die Operation ein UNION ALL-Befehl.


Video: Operation 'Union'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'Union' kombiniert die Zeilen aus zwei Datasets, die dasselbe Schema gemeinsam nutzen.
  2. Dieses Dataset enthält vier Spalten und sechs Zeilen. Die Datentypen von links nach rechts sind 'String', 'String', 'Decimal' und 'String'.
  3. Beim Laden des Datasets in Data Refinery hat die AUTOMATIC-Operation 'Spaltentyp konvertieren' die Spalte PRICE automatisch in den Datentyp 'Decimal' konvertiert.
  4. Die Spalten im zweiten Dataset müssen mit den Datentypen in diesem Dataset kompatibel sein.
  5. Wählen Sie das Dataset aus, das mit dem aktuellen Dataset kombiniert werden soll.
  6. Wenn Sie eine Vorschau des neuen Datasets anzeigen, sehen Sie, dass es auch vier Spalten enthält. Die Spalte 'PRICE' weist jedoch den Datentyp 'String' auf.
  7. Bevor Sie die Operation 'Union' anwenden, müssen Sie den automatischen Schritt 'Spaltentyp konvertieren' löschen, damit die Spalte PRICE den gleichen Datentyp ('String') wie die Spalte PRICE im neuen Dataset hat.
  8. Die Spalte PRICE basiert jetzt auf Zeichenfolgedaten.
  9. Wiederholen Sie nun die Union-Operation.
  10. Das neue Dataset wird zum aktuellen Datenset hinzugefügt. Der Umfang des Datasets wird auf 12 Zeilen erhöht.
  11. Die Operation 'Union' wird in der Anzeige 'Schritte' angezeigt.
  12. Fügen Sie jetzt ein Dataset hinzu, das über eine andere Anzahl von Spalten verfügt. Die übereinstimmenden Spalten müssen immer noch kompatible Datentypen sein.
  13. Wählen Sie das Dataset aus, das mit dem aktuellen Dataset kombiniert werden soll.
  14. Wenn Sie eine Vorschau des neuen Datasets anzeigen, sehen Sie, dass es eine Spalte mehr enthält als das ursprüngliche Dataset. Die fünfte Spalte ist TYPE.
  15. Wählen Sie 'Abweichende Anzahl von Spalten zulassen' aus und lassen Sie doppelte Werte zu.
  16. Wenden Sie die Operation 'Union' an.
  17. Das neue Dataset wird zum aktuellen Datenset hinzugefügt. Die Anzahl der Zeilen im Dataset wird auf 18 Zeilen erhöht.
  18. Die zusätzliche Spalte TYPE wird zum Dataset hinzugefügt.
  19. Die Operation 'Union' wird in der Anzeige 'Schritte' angezeigt.

Tipp für die Operation Union: Wenn Sie einen Fehler zu inkompatiblen Schemas erhalten, prüfen Sie, ob die automatische Operation Spaltentyp konvertieren die Datentypen des ersten Datasets geändert hat. Löschen Sie den Schritt Spaltentyp konvertieren und versuchen Sie es erneut.

NATÜRLICHE SPRACHE

Stoppwörter entfernen Entfernen Sie allgemeine Wörter der englischen Sprache, wie z. B. "the" oder "and". Stoppwörter besitzen in der Regel einen geringen semantischen Wert für Algorithmen und Modelle zur Textanalyse. Entfernen Sie die Stoppwörter, um das Datenvolumen zu verringern und die Qualität der Daten zu verbessern, die Sie zum Trainieren von Modellen für maschinelles Lernen verwenden.

Optional: Um zu prüfen, welche Wörter entfernt wurden, wenden Sie die Operation In Tokens zerlegen (nach Wörtern) auf die ausgewählte Spalte an und zeigen Sie dann die Statistik für die Wörter auf der Registerkarte Profil an. Sie können den Schritt In Tokens zerlegen später im Data Refinery-Ablauf rückgängig machen.


Video: Operation 'Stoppwörter entfernen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Mit der Operation 'Stoppwörter entfernen' werden allgemeine Wörter der englischen Sprache aus dem Dataset entfernt. Stoppwörter besitzen in der Regel einen geringen semantischen Wert für Algorithmen und Modelle zur Textanalyse. Entfernen Sie die Stoppwörter, um das Datenvolumen zu reduzieren und um die Datenqualität zu verbessern.
  2. Die Operation 'Stoppwörter entfernen' entfernt diese Wörter: a, a, and, are, at, be, but, by, for, if, if, if, it, no, not, of, on, or, such, the, their, then, there, they, this, to, was, will, with, is, it, is, with.
  3. Die Operation 'Stoppwörter entfernen' befindet sich unter der Kategorie NATURAL LANGUAGE (NATÜRLICHE SPRACHE).
  4. Wählen Sie die Spalte STRING aus.
  5. Klicken Sie auf 'Anwenden', um die Stoppwörter zu entfernen.
  6. Die Stoppwörter werden aus der Spalte STRING entfernt.
  7. Die Operation 'Stoppwörter entfernen' wird in der Anzeige 'Schritte' angezeigt.

In Tokens zerlegen
Unterteilen Sie englischen Text in Wörter, Sätze, Absätze, Zeilen, Zeichen oder nach regulären Ausdrücken.


Video: Operation 'In Tokens zerlegen'

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Videotranskript

  1. Die Operation 'In Tokens zerlegen' zerlegt den englischen Text in Wörter, Sätze, Absätze, Zeilen, Zeichen oder anhand eines regulären Ausdrucks.
  2. Die Operation 'In Tokens zerlegen' befindet sich unter der Kategorie NATURAL LANGUAGE (NATÜRLICHE SPRACHE).
  3. Wählen Sie die Spalte STRING aus.
  4. Verfügbare Optionen für 'In Tokens zerlegen'.
  5. Erstellen Sie eine neue Spalte mit dem Namen WORDS.
  6. Die Operation 'In Tokens zerlegen' hat die Wörter aus der Spalte STRING übernommen und eine neue Spalte (WORDS) mit einer Zeile für jedes Wort erstellt.
  7. Die Operation 'In Tokens zerlegen' wird in der Anzeige 'Schritte' angezeigt.

Übergeordnetes Thema: Daten optimieren

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen