0 / 0
Zurück zur englischen Version der Dokumentation
Schnelleinstieg: Daten verfeinern
Letzte Aktualisierung: 28. Nov. 2024
Schnelleinstieg: Daten verfeinern

Sie können bei der Vorbereitung von Daten Zeit sparen, indem Sie große Mengen an Rohdaten schnell für eine sofortige Analyse in verwendbare, hochqualitative Informationen umwandeln. Informieren Sie sich anhand der entsprechenden Abschnitte über das Tool 'Data Refinery', sehen Sie sich dann ein Video an und absolvieren Sie ein Lernprogramm, das für Anfänger geeignet ist und bei dem keine Programmierung erforderlich ist.

Ihr grundlegender Workflow umfasst die folgenden Tasks:

  1. Öffnen Sie Ihr Sandboxprojekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
  2. Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
  3. Öffnen Sie die Daten in Data Refinery.
  4. Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
  5. Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.

Informationen zu Data Refinery

Verwende Data Refinery, um tabellarische Daten zu bereinigen und mit einem grafischen Ablaufeditor zu formen. Du kannst auch interaktive Vorlagen für das Codieren von Operationen, Funktionen und logischen Operatoren verwenden. Bei der Datenbereinigung korrigieren oder entfernen Sie fehlerhafte, unvollständige, falsch formatierte oder doppelt vorhandene Daten. Beim Formen von Daten passen Sie die Daten durch Herausfiltern, Sortieren, Kombinieren oder Entfernen von Spalten und durch Ausführen von Operationen an.

Sie erstellen einen Data Refinery-Ablauf als geordnete Folge von Operationen, die auf Daten angewendet werden. Data Refinery umfasst eine grafische Oberfläche zum Erstellen von Profilen für Ihre Daten und ihre Validierung und beinhaltet außerdem über 20 anpassbare Diagramme, die verschiedene Perspektiven veranschaulichen und Einblicke in Ihre Daten liefern. Wenn Sie das verfeinerte Dataset speichern, laden Sie es in der Regel an eine andere Position als die, an der Sie es lesen. Auf diese Weise bleiben Ihre Quellendaten von dem Verfeinerungsprozess unberührt.

Weitere Informationen zur Datenverfeinerung

Video zum Verfeinern von Daten ansehen

Video ansehen Sehen Sie sich dieses Video an, um zu erfahren, wie Sie Daten verfeinern können.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.


Lernprogramm zum Verfeinern von Daten absolvieren

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Für dieses Lernprogramm benötigen Sie ungefähr 30 Minuten.





Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.

Verwenden Sie das Videobild im Bild

Tipp: Starten Sie das Video. Wenn Sie dann durch das Lernprogramm blättern, wechselt das Video in den Bildmodus. Schließen Sie das Video-Inhaltsverzeichnis für die beste Erfahrung mit Bild-in-Bild. Sie können den Modus "Bild im Bild" verwenden, damit Sie dem Video folgen können, während Sie die Tasks in diesem Lernprogramm ausführen. Klicken Sie auf die Zeitmarken für jede zu befolgende Task.

Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:

Verwendung von Bildern und Kapiteln

Hilfe in der Community anfordern

Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im watsonx Community Diskussionsforum finden.

Browserfenster einrichten

Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.

Paralleles Lernprogramm und Benutzerschnittstelle

Tipp: Wenn Sie beim Durcharbeiten dieses Lernprogramms in der Benutzerschnittstelle auf eine geführte Tour stoßen, klicken Sie auf Vielleicht später.



Aufgabe 1: Projekt öffnen

Sie benötigen ein Projekt zum Speichern der Daten und des Data Refinery-Ablaufs. Sie können Ihr Sandboxprojekt verwenden oder ein Projekt erstellen.

  1. Wählen Sie im Navigationsmenü ' Navigationsmenü Projekte > Alle Projekte anzeigen

  2. Öffnen Sie Ihr Sandboxprojekt. Wenn Sie ein neues Projekt verwenden möchten:

    1. Klicken Sie auf Neues Projekt.

    2. Wählen Sie Leeres Projekt erstellen aus.

    3. Geben Sie einen Namen und optional eine Beschreibung für das Projekt ein.

    4. Wählen Sie eine vorhandene Objektspeicherserviceinstanz aus oder erstellen Sie eine neue.

    5. Klicken Sie auf Erstellen.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt ein neues, leeres Projekt.

Die folgende Abbildung zeigt ein neues, leeres Projekt.

Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.




Aufgabe 2: Dataset in Data Refinery öffnen

Vorschau-Lernprogrammvideo Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:05 starten.

Führen Sie die folgenden Schritte aus, um Ihrem Projekt ein Datenasset hinzuzufügen und einen Data Refinery -Ablauf zu erstellen. Das Dataset, das Sie in diesem Lernprogramm verwenden werden, ist im Ressourcenhub verfügbar.

  1. Greifen Sie auf die Daten der Fluggesellschaft in der Ressourcendrehscheibe zu.

  2. Klicken Sie auf Zum Projekt hinzufügen.

  3. Wählen Sie Ihr Projekt in der Liste aus und klicken Sie auf Add.

  4. Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.

    Weitere Informationen zum Hinzufügen eines Datenassets aus dem Ressourcenhub zu einem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.

  5. Klicken Sie auf der Registerkarte Assets auf das Datenasset airline-data.csv , um eine Vorschau des Inhalts anzuzeigen.

  6. Klicken Sie auf Daten vorbereiten , um eine Stichprobe der Datei in Data Refineryzu öffnen und zu warten, bis Data Refinery eine Stichprobe der Daten liest und verarbeitet.

  7. Schließen Sie die Anzeigen Informationen und Schritte .

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt das in Data Refinerygeöffnete Airline-Datenasset.

Die folgende Abbildung zeigt das in Data Refinerygeöffnete Airline-Datenasset.




Aufgabe 3: Daten mit Profil und Visualisierungen überprüfen

Vorschau-Lernprogrammvideo Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:47 starten.

Der Inhalt eines Assets wird automatisch anhand der Werte in diesen Spalten profiliert und klassifiziert. Führen Sie die folgenden Schritte aus, um die Daten mithilfe der Registerkarten 'Profil' und 'Visualisierungen ' zu untersuchen.

Tipp: Verwenden Sie die Seiten 'Profil' und 'Visualisierungen ', um Änderungen in den Daten anzuzeigen, während Sie sie optimieren.
  1. Klicken Sie auf die Registerkarte Profil, um die Häufigkeitsverteilung der Daten zu überprüfen, sodass Sie Anomalien (Ausreißer) ausfindig machen können.

    1. Blättern Sie durch die Spalten, um die Statistikdaten für jede Spalte anzuzeigen. Die Statistiken zeigen den Interquartilbereich, das Minimum, das Maximum, den Median und die Standardabweichung in den einzelnen Spalten.

    2. Bewegen Sie den Mauszeiger über einen Balken, um weitere Details anzuzeigen.

    Das folgende Bild zeigt die Registerkarte Profil:
    ' Registerkarte 'Profil'

  2. Klicken Sie auf die Registerkarte Visualisierungen.

    1. Wählen Sie die Spalte UniqueCarrier für die Darstellung aus. Vorgeschlagene Diagrammtypen sind jeweils durch einen blauen Punkt neben dem entsprechenden Symbol gekennzeichnet.

    2. Klicken Sie auf das Kreisdiagramm . Verwenden Sie die unterschiedlichen in den Diagrammen verfügbaren Perspektiven, um Muster, Verbindungen und Beziehungen innerhalb der Daten zu aufzudecken.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte 'Visualizations' (Visualisierungen). Sie können nun die Daten optimieren.

Registerkarte 'Visualisierungen'




Aufgabe 4: Daten verfeinern

Data Refinery-Operationen

Data Refinery verwendet zwei Arten von Operationen zum Verfeinern von Daten: GUI-Operationen und Codierungsoperationen. Im vorliegenden Lernprogramm werden Sie beide Arten von Operationen verwenden.

  • GUI-Operationen können aus mehreren Schritten bestehen. Wählen Sie eine Operation aus Neuer Schritt aus. Eine Teilmenge der GUI-Operationen ist auch über das Overflow-Menü jeder Spalte (Überlaufmenü) verfügbar.

    Wenn Sie eine Datei in Data Refinery öffnen, wird die Operation Spaltentyp konvertieren automatisch als erster Schritt angewendet, um alle Datentypen, die keine Zeichenfolgen sind, in abgeleitete Datentypen zu konvertieren (z. B. in Integer, Datum, Boolesch usw.). Sie können diesen Schritt rückgängig machen oder bearbeiten.

  • Codierungsoperationen sind interaktive Vorlagen für das Codieren von Operationen, Funktionen und logische Operatoren. Für die meisten Operationen wird interaktive Hilfe angeboten. Klicken Sie im Textfeld für die Befehlszeile auf den Namen der Operation, damit die Codierungsoperationen und die zugehörigen Syntaxoptionen angezeigt werden.

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:16 an.

Das Optimieren von Daten umfasst eine Abfolge von Schritten zum Erstellen eines Data Refinery-Ablaufs. Zeigen Sie während dieser Task die Anzeige Schritte an, um Ihren Fortschritt zu verfolgen. Sie können einen Schritte auswählen und dann löschen oder bearbeiten. Wenn Sie einen Fehler machen, können Sie auch auf das Rückgängig-Symbol " Rückgängig klicken. Führen Sie die folgenden Schritte aus, um die Daten zu optimieren:

  1. Kehren Sie zur Registerkarte Daten zurück.

  2. Wählen Sie die Spalte Year aus. Klicken Sie auf das Menü Überlauf (Überlaufmenü) und wählen Sie Absteigend sortieren.

  3. Klicken Sie auf Schritte , um den neuen Schritt im Fenster Schritte anzuzeigen.

  4. Konzentrieren Sie sich auf die Verspätungen für eine bestimmte Fluggesellschaft. In diesem Lernprogramm wird United Airlines (UA) verwendet, Sie können jedoch jede beliebige Fluggesellschaft auswählen.

    1. Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Filter aus.

    2. Wählen Sie die Spalte für die Fluggesellschaften UniqueCarrier aus.

    3. Wählen Sie als Operator die Option Ist gleich aus.

    4. Geben Sie für Wert die Zeichenfolge für die Fluggesellschaft ein, für die Verspätungsinformationen angezeigt werden sollen. Zum Beispiel: ' UA.
      ' Filteroperation

    5. Klicken Sie auf Anwenden. Blättern Sie zur Spalte UniqueCarrier, um die Ergebnisse anzuzeigen.

  5. Erstellen Sie eine neue Spalte, in der die Verspätungen für Ankunft und Abflug summiert werden.

    1. Wählen Sie die Spalte DepDelay aus.

    2. Beachten Sie, dass die Operation Spaltentyp konvertieren automatisch als erster Schritt angewendet wurde, um die Zeichenfolgedatentypen in allen Spalten, bei deren Werten es sich um Zahlen handelt, in ganzzahlige Datentypen zu konvertieren.

    3. Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Berechnen aus.

    4. Wählen Sie als Operator die Option Addition aus.

    5. Wählen Sie Spalteund anschließend die Spalte ArrDelay aus.

    6. Wählen Sie die Option Create new column for results (Neue Spalte für Ergebnisse erstellen) aus.

    7. Für Neue Spaltennamen geben Sie ' TotalDelay.
      ' Berechnungsoperation

    8. Sie können die neue Spalte am Ende der Spaltenliste oder neben der ursprünglichen Spalte positionieren. Wählen Sie in diesem Fall Neben der ursprünglichen Spalteaus.

    9. Klicken Sie auf Anwenden. Die neue Spalte " TotalDelay" wird hinzugefügt.

  6. Verschieben Sie die neue Spalte TotalDelay an den Anfang der Datei:

    1. Wählen Sie im Textfeld für die Befehlszeile die Operation select aus.

    2. Klicken Sie auf das Wort selectund wählen Sie dann select (`<column>`, everything ())aus.

    3. Klicken Sie auf `<column>` und wählen Sie dann die Spalte TotalDelay aus. Nachdem Sie diesen Schritt ausgeführt haben, müsste der Befehl wie folgt aussehen:

      select(`TotalDelay`, everything())
      
    4. Klicken Sie auf Anwenden. Die Spalte TotalDelay ist jetzt die erste Spalte.

  7. Reduzieren Sie die Daten auf vier Spalten: Year, Month, DayofMonth und TotalDelay. Verwenden Sie die Codierungsoperation group_by, um die Spalten in Gruppen nach Jahr, Monat und Tag zu unterteilen.

    1. Wählen Sie im Textfeld für die Befehlszeile die Operation group_by aus.

    2. Klicken Sie auf <column> und wählen Sie dann die Spalte Year aus.

    3. Geben Sie vor der rechten runden Klammer Folgendes ein: ,Month,DayofMonth. Nachdem Sie diesen Schritt ausgeführt haben, müsste der Befehl wie folgt aussehen:

      group_by(`Year`,Month,DayofMonth)
      
    4. Klicken Sie auf Anwenden.

    5. Verwenden Sie die Codierungsoperation select für die Spalte TotalDelay. Wählen Sie im Textfeld für die Befehlszeile die Operation select aus.
      Klicken Sie auf <column> und wählen Sie die Spalte TotalDelay aus. Der Befehl sollte nun wie folgt aussehen:

      select(`TotalDelay`)
      
    6. Klicken Sie auf Anwenden. Die geformten Daten bestehen jetzt aus den Spalten Year, Month, DayofMonth und TotalDelay.

      Das folgende Bild zeigt die ersten vier Zeilen der Daten.
      ' Die ersten vier Zeilen des Data Refinery-Ablaufs mit den Spalten 'Year', 'Month', 'DayofMonth' und 'TotalDelay'

  8. Zeigen Sie den Mittelwert der Werte der Spalte TotalDelay an und erstellen Sie eine neue Spalte AverageDelay :

    1. Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Aggregieren aus.

    2. Wählen Sie als Spalte TotalDelayaus.

    3. Wählen Sie für Operatordie Option Mittelwertaus.

    4. Für Name der aggregierten Spalte geben Sie ' AverageDelay.
      ' Aggregatoperation

    5. Klicken Sie auf Anwenden.

      Die neue Spalte AverageDelay enthält den Durchschnitt aller Verzögerungszeiten.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die ersten vier Zeilen der Daten.

Die folgende Abbildung zeigt die ersten vier Zeilen der Daten.




Aufgabe 5: Job für den Ablauf Data Refinery ausführen

Vorschau-Lernprogrammvideo Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 04:16 starten.

Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, werden die Schritte für das gesamte Dataset ausgeführt. Wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu. Die Ausgabe des Data Refinery-Ablaufs wird zu den Datenassets im Projekt hinzugefügt. Führen Sie die folgenden Schritte aus, um einen Job zum Erstellen des optimierten Datasets auszuführen.

  1. Klicken Sie in der Data Refinery auf das Symbol Jobs und wählen Sie Speichern und einen Job erstellen.
    ' Speichern und Job erstellen

  2. Geben Sie einen Namen und eine Beschreibung für den Job ein und klicken Sie auf Weiter.

  3. Wählen Sie eine Laufzeitumgebung aus und klicken Sie auf Weiter.

  4. (Optional) Klicken Sie auf die Umschaltfläche, um eine Ausführung zu planen. Geben Sie das Datum und die Uhrzeit an, legen Sie fest, ob der Job wiederholt werden soll, und klicken Sie auf Weiter.

  5. (Optional) Aktivieren Sie Benachrichtigungen für den Job und klicken Sie auf Weiter.

  6. Überprüfen Sie die Details, und klicken Sie auf Erstellen und Ausführen, um den Auftrag sofort auszuführen.
    ' create job

  7. Wenn der Job erstellt ist, klicken Sie auf den Link zu den Jobdetails in der Benachrichtigung, um den Job in Ihrem Projekt anzuzeigen. Sie können stattdessen auch zur Registerkarte Jobs im Projekt navigieren und auf den Jobnamen klicken, um den Job zu öffnen.

  8. Wenn der Status für den Job Abgeschlossenlautet, navigieren Sie mithilfe des Projektnavigationspfads zurück zur Registerkarte Assets im Projekt.

  9. Klicken Sie auf den Abschnitt Daten > Datenassets , um die Ausgabe des Data Refinery -Ablaufs airline-data_shaped.csvanzuzeigen.

  10. Klicken Sie auf den Abschnitt Datenflüsse > Data Refinery , um den Datenfluss Data Refinery airline-data.csv_flowanzuzeigen.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte 'Assets' mit dem Datenfluss Data Refinery und dem geformten Asset.

Die folgende Abbildung zeigt die Registerkarte 'Assets' mit dem Ablauf Data Refinery und dem geformten Asset.




Aufgabe 6: Weiteres Datenasset aus dem Ablauf Data Refinery erstellen

Vorschau-Lernprogrammvideo Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 05:26 an.

Führen Sie die folgenden Schritte aus, um das Dataset durch Bearbeiten des Ablaufs Data Refinery weiter einzugrenzen:

  1. Klicken Sie auf airline-data.csv_flow , um den Ablauf in Data Refineryzu öffnen.

  2. Sortieren Sie die Spalte AverageDelay in absteigender Reihenfolge.

    1. Wählen Sie die Spalte AverageDelay aus.

    2. Klicken Sie auf das Menü Überlauf der Spalte (Überlaufmenü) und wählen Sie dann Absteigend sortieren.

  3. Klicken Sie auf das Symbol für die Flusseinstellungen " Einstellungen für Ablauf.

  4. Klicken Sie auf die Anzeige Zieldatei .

  5. Klicken Sie auf Eigenschaften bearbeiten.

    1. Ändern Sie im Dialogfeld " Zieleigenschaften formatieren " den Namen des Datenelements in " airline-data_sorted_shaped.csv.
      ' Name der geänderten Ausgabedatei

    2. Klicken Sie auf Speichern , um zu den Flow-Einstellungen zurückzukehren.

  6. Klicken Sie auf Anwenden, um die Einstellungen zu speichern.

  7. Klicken Sie in der Data Refinery auf das Symbol Jobs und wählen Sie Jobs speichern und anzeigen.
    ' Speichern und Jobs anzeigen

  8. Wählen Sie den Job für die Flugliniendaten aus und klicken Sie anschließend auf Anzeigen.

  9. Klicken Sie in der Symbolleiste des Auftragsfensters auf das Symbol Auftrag ausführen.
    ' Jobs ausführen

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Details des abgeschlossenen Jobs.

Die folgende Abbildung zeigt die Details des abgeschlossenen Jobs.




Aufgabe 7: Datenassets und Ihren Data Refinery -Ablauf in einem Projekt anzeigen

Vorschau-Lernprogrammvideo Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 06:40 an.

Führen Sie nun die folgenden Schritte aus, um die drei Datenassets anzuzeigen: das Original, das erste optimierte Dataset und das zweite optimierte Dataset:

  1. Rufen Sie die Projektseite auf, wenn der Job abgeschlossen ist.

  2. Klicken Sie auf die Registerkarte Assets.

  3. Im Abschnitt Datenassets wird die von Ihnen hochgeladene ursprüngliche Datei gemeinsam mit der Ausgabe der beiden Data Refinery-Abläufe angezeigt.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. Klicken Sie auf das Datenasset airline-data_csv_shaped , um die mittlere Verzögerung unsortiert anzuzeigen. Navigieren Sie zurück zur Registerkarte Assets .

  5. Klicken Sie auf das Datenasset airline-data_sorted_shaped.csv, damit der Mittelwert für Verspätungen in absteigender Reihenfolge sortiert angezeigt wird. Navigieren Sie zurück zur Registerkarte Assets .

  6. Klicken Sie auf den Abschnitt Flows > Data Refinery -Abläufe , um den Ablauf Data Refinery anzuzeigen: airline-data.csv_flow.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte "Assets" mit allen angezeigten Assets.

Die folgende Abbildung zeigt die Registerkarte "Assets" mit allen angezeigten Assets.



Nächste Schritte

Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:

Weitere Ressourcen

  • Weitere Informationen finden Sie unter Videos.

  • Suchen Sie Beispieldatasets, Projekte, Modelle, Eingabeaufforderungen und Notebooks im Ressourcenhub, um praktische Erfahrungen zu sammeln:

    Notizbuch -Notizbücher, die Sie zu Ihrem Projekt hinzufügen können, um mit der Analyse von Daten und der Erstellung von Modellen zu beginnen.

    Projekt Projekte, die Sie importieren können und die Notizbücher, Datensätze, Prompts und andere Elemente enthalten.

    Dataset Datensätze, die Sie zu Ihrem Projekt hinzufügen können, um Modelle zu verfeinern, zu analysieren und zu erstellen.

    Eingabeaufforderung Eingabeaufforderungen, die Sie im Eingabeaufforderungs-Labor verwenden können, um ein foundation model einzugeben.

    Modell Stiftungsmodelle, die Sie im Prompt-Labor verwenden können.

Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen