Maschinell übersetztes Thema Sie können zur englischen Version wechseln.Siehe Haftungsausschluss
Die genaueste und aktuellste Version dieser Dokumentation finden Sie in der englischen (ursprünglichen) Version. IBM haftet nicht für Schäden oder Verluste, die durch die Verwendung automatisch (maschinell) übersetzter Inhalte entstehen.
Schnelleinstieg: Daten verfeinern
Letzte Aktualisierung: 28. Nov. 2024
Schnelleinstieg: Daten verfeinern
Sie können bei der Vorbereitung von Daten Zeit sparen, indem Sie große Mengen an Rohdaten schnell für eine sofortige Analyse in verwendbare, hochqualitative Informationen umwandeln. Informieren Sie sich anhand der entsprechenden Abschnitte über das Tool 'Data Refinery', sehen Sie sich dann ein Video an und absolvieren Sie ein Lernprogramm, das für Anfänger geeignet ist und bei dem keine Programmierung erforderlich ist.
Ihr grundlegender Workflow umfasst die folgenden Tasks:
Öffnen Sie Ihr Sandboxprojekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
Öffnen Sie die Daten in Data Refinery.
Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.
Informationen zu Data Refinery
Copy link to section
Verwende Data Refinery, um tabellarische Daten zu bereinigen und mit einem grafischen Ablaufeditor zu formen. Du kannst auch interaktive Vorlagen für das Codieren von Operationen, Funktionen und logischen Operatoren verwenden. Bei der Datenbereinigung korrigieren oder entfernen Sie fehlerhafte, unvollständige, falsch formatierte oder doppelt vorhandene Daten. Beim Formen von Daten passen Sie die Daten durch Herausfiltern, Sortieren, Kombinieren oder Entfernen von Spalten und durch Ausführen von Operationen an.
Sie erstellen einen Data Refinery-Ablauf als geordnete Folge von Operationen, die auf Daten angewendet werden. Data Refinery umfasst eine grafische Oberfläche zum Erstellen von Profilen für Ihre Daten und ihre Validierung und beinhaltet außerdem über 20 anpassbare Diagramme, die verschiedene Perspektiven veranschaulichen und Einblicke in Ihre Daten liefern. Wenn Sie das verfeinerte Dataset speichern, laden Sie es in der Regel an eine andere Position als die, an der Sie es lesen. Auf diese Weise bleiben Ihre Quellendaten von dem Verfeinerungsprozess unberührt.
Für dieses Lernprogramm benötigen Sie ungefähr 30 Minuten.
Alle Abschnitte einblenden
Tipps zum Durcharbeiten dieses Lernprogramms Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Copy link to section
Tipp: Starten Sie das Video. Wenn Sie dann durch das Lernprogramm blättern, wechselt das Video in den Bildmodus. Schließen Sie das Video-Inhaltsverzeichnis für die beste Erfahrung mit Bild-in-Bild. Sie können den Modus "Bild im Bild" verwenden, damit Sie dem Video folgen können, während Sie die Tasks in diesem Lernprogramm ausführen. Klicken Sie auf die Zeitmarken für jede zu befolgende Task.
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Copy link to section
Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im watsonx Community Diskussionsforum finden.
Browserfenster einrichten
Copy link to section
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Tipp: Wenn Sie beim Durcharbeiten dieses Lernprogramms in der Benutzerschnittstelle auf eine geführte Tour stoßen, klicken Sie auf Vielleicht später.
Aufgabe 1: Projekt öffnen
Sie benötigen ein Projekt zum Speichern der Daten und des Data Refinery-Ablaufs. Sie können Ihr Sandboxprojekt verwenden oder ein Projekt erstellen.
Wählen Sie im Navigationsmenü ' Projekte > Alle Projekte anzeigen
Öffnen Sie Ihr Sandboxprojekt. Wenn Sie ein neues Projekt verwenden möchten:
Klicken Sie auf Neues Projekt.
Wählen Sie Leeres Projekt erstellen aus.
Geben Sie einen Namen und optional eine Beschreibung für das Projekt ein.
Die folgende Abbildung zeigt ein neues, leeres Projekt.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.
Aufgabe 2: Dataset in Data Refinery öffnen
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:05 starten.
Führen Sie die folgenden Schritte aus, um Ihrem Projekt ein Datenasset hinzuzufügen und einen Data Refinery -Ablauf zu erstellen. Das Dataset, das Sie in diesem Lernprogramm verwenden werden, ist im Ressourcenhub verfügbar.
Klicken Sie auf der Registerkarte Assets auf das Datenasset airline-data.csv , um eine Vorschau des Inhalts anzuzeigen.
Klicken Sie auf Daten vorbereiten , um eine Stichprobe der Datei in Data Refineryzu öffnen und zu warten, bis Data Refinery eine Stichprobe der Daten liest und verarbeitet.
Schließen Sie die Anzeigen Informationen und Schritte .
Überprüfen Sie Ihren Fortschritt
Copy link to section
Die folgende Abbildung zeigt das in Data Refinerygeöffnete Airline-Datenasset.
Aufgabe 3: Daten mit Profil und Visualisierungen überprüfen
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:47 starten.
Der Inhalt eines Assets wird automatisch anhand der Werte in diesen Spalten profiliert und klassifiziert. Führen Sie die folgenden Schritte aus, um die Daten mithilfe der Registerkarten 'Profil' und 'Visualisierungen ' zu untersuchen.
Tipp: Verwenden Sie die Seiten 'Profil' und 'Visualisierungen ', um Änderungen in den Daten anzuzeigen, während Sie sie optimieren.
Klicken Sie auf die Registerkarte Profil, um die Häufigkeitsverteilung der Daten zu überprüfen, sodass Sie Anomalien (Ausreißer) ausfindig machen können.
Blättern Sie durch die Spalten, um die Statistikdaten für jede Spalte anzuzeigen. Die Statistiken zeigen den Interquartilbereich, das Minimum, das Maximum, den Median und die Standardabweichung in den einzelnen Spalten.
Bewegen Sie den Mauszeiger über einen Balken, um weitere Details anzuzeigen.
Das folgende Bild zeigt die Registerkarte Profil: '
Klicken Sie auf die Registerkarte Visualisierungen.
Wählen Sie die Spalte UniqueCarrier für die Darstellung aus. Vorgeschlagene Diagrammtypen sind jeweils durch einen blauen Punkt neben dem entsprechenden Symbol gekennzeichnet.
Klicken Sie auf das Kreisdiagramm . Verwenden Sie die unterschiedlichen in den Diagrammen verfügbaren Perspektiven, um Muster, Verbindungen und Beziehungen innerhalb der Daten zu aufzudecken.
Überprüfen Sie Ihren Fortschritt
Copy link to section
Die folgende Abbildung zeigt die Registerkarte 'Visualizations' (Visualisierungen). Sie können nun die Daten optimieren.
Aufgabe 4: Daten verfeinern
Data Refinery-Operationen
Copy link to section
Data Refinery verwendet zwei Arten von Operationen zum Verfeinern von Daten: GUI-Operationen und Codierungsoperationen. Im vorliegenden Lernprogramm werden Sie beide Arten von Operationen verwenden.
GUI-Operationen können aus mehreren Schritten bestehen. Wählen Sie eine Operation aus Neuer Schritt aus. Eine Teilmenge der GUI-Operationen ist auch über das Overflow-Menü jeder Spalte () verfügbar.
Wenn Sie eine Datei in Data Refinery öffnen, wird die Operation Spaltentyp konvertieren automatisch als erster Schritt angewendet, um alle Datentypen, die keine Zeichenfolgen sind, in abgeleitete Datentypen zu konvertieren (z. B. in Integer, Datum, Boolesch usw.). Sie können diesen Schritt rückgängig machen oder bearbeiten.
Codierungsoperationen sind interaktive Vorlagen für das Codieren von Operationen, Funktionen und logische Operatoren. Für die meisten Operationen wird interaktive Hilfe angeboten. Klicken Sie im Textfeld für die Befehlszeile auf den Namen der Operation, damit die Codierungsoperationen und die zugehörigen Syntaxoptionen angezeigt werden.
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:16 an.
Das Optimieren von Daten umfasst eine Abfolge von Schritten zum Erstellen eines Data Refinery-Ablaufs. Zeigen Sie während dieser Task die Anzeige Schritte an, um Ihren Fortschritt zu verfolgen. Sie können einen Schritte auswählen und dann löschen oder bearbeiten. Wenn Sie einen Fehler machen, können Sie auch auf das Rückgängig-Symbol " klicken. Führen Sie die folgenden Schritte aus, um die Daten zu optimieren:
Kehren Sie zur Registerkarte Daten zurück.
Wählen Sie die Spalte Year aus. Klicken Sie auf das Menü Überlauf () und wählen Sie Absteigend sortieren.
Klicken Sie auf Schritte , um den neuen Schritt im Fenster Schritte anzuzeigen.
Konzentrieren Sie sich auf die Verspätungen für eine bestimmte Fluggesellschaft. In diesem Lernprogramm wird United Airlines (UA) verwendet, Sie können jedoch jede beliebige Fluggesellschaft auswählen.
Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Filter aus.
Wählen Sie die Spalte für die Fluggesellschaften UniqueCarrier aus.
Wählen Sie als Operator die Option Ist gleich aus.
Geben Sie für Wert die Zeichenfolge für die Fluggesellschaft ein, für die Verspätungsinformationen angezeigt werden sollen. Zum Beispiel: ' UAIn die Zwischenablage kopiert. '
Klicken Sie auf Anwenden. Blättern Sie zur Spalte UniqueCarrier, um die Ergebnisse anzuzeigen.
Erstellen Sie eine neue Spalte, in der die Verspätungen für Ankunft und Abflug summiert werden.
Wählen Sie die Spalte DepDelay aus.
Beachten Sie, dass die Operation Spaltentyp konvertieren automatisch als erster Schritt angewendet wurde, um die Zeichenfolgedatentypen in allen Spalten, bei deren Werten es sich um Zahlen handelt, in ganzzahlige Datentypen zu konvertieren.
Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Berechnen aus.
Wählen Sie als Operator die Option Addition aus.
Wählen Sie Spalteund anschließend die Spalte ArrDelay aus.
Wählen Sie die Option Create new column for results (Neue Spalte für Ergebnisse erstellen) aus.
Für Neue Spaltennamen geben Sie ' TotalDelayIn die Zwischenablage kopiert. '
Sie können die neue Spalte am Ende der Spaltenliste oder neben der ursprünglichen Spalte positionieren. Wählen Sie in diesem Fall Neben der ursprünglichen Spalteaus.
Klicken Sie auf Anwenden. Die neue Spalte " TotalDelay" wird hinzugefügt.
Verschieben Sie die neue Spalte TotalDelay an den Anfang der Datei:
Wählen Sie im Textfeld für die Befehlszeile die Operation select aus.
Klicken Sie auf das Wort selectund wählen Sie dann select (`<column>`, everything ())aus.
Klicken Sie auf `<column>` und wählen Sie dann die Spalte TotalDelay aus. Nachdem Sie diesen Schritt ausgeführt haben, müsste der Befehl wie folgt aussehen:
select(`TotalDelay`, everything())
Copy to clipboardIn die Zwischenablage kopiert
Klicken Sie auf Anwenden. Die Spalte TotalDelay ist jetzt die erste Spalte.
Reduzieren Sie die Daten auf vier Spalten: Year, Month, DayofMonth und TotalDelay. Verwenden Sie die Codierungsoperation group_by, um die Spalten in Gruppen nach Jahr, Monat und Tag zu unterteilen.
Wählen Sie im Textfeld für die Befehlszeile die Operation group_by aus.
Klicken Sie auf <column> und wählen Sie dann die Spalte Year aus.
Geben Sie vor der rechten runden Klammer Folgendes ein: ,Month,DayofMonthIn die Zwischenablage kopiert. Nachdem Sie diesen Schritt ausgeführt haben, müsste der Befehl wie folgt aussehen:
group_by(`Year`,Month,DayofMonth)
Copy to clipboardIn die Zwischenablage kopiert
Klicken Sie auf Anwenden.
Verwenden Sie die Codierungsoperation select für die Spalte TotalDelay. Wählen Sie im Textfeld für die Befehlszeile die Operation select aus. Klicken Sie auf <column> und wählen Sie die Spalte TotalDelay aus. Der Befehl sollte nun wie folgt aussehen:
select(`TotalDelay`)
Copy to clipboardIn die Zwischenablage kopiert
Klicken Sie auf Anwenden. Die geformten Daten bestehen jetzt aus den Spalten Year, Month, DayofMonth und TotalDelay.
Das folgende Bild zeigt die ersten vier Zeilen der Daten. '
Zeigen Sie den Mittelwert der Werte der Spalte TotalDelay an und erstellen Sie eine neue Spalte AverageDelay :
Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Aggregieren aus.
Wählen Sie als SpalteTotalDelayaus.
Wählen Sie für Operatordie Option Mittelwertaus.
Für Name der aggregierten Spalte geben Sie ' AverageDelayIn die Zwischenablage kopiert. '
Klicken Sie auf Anwenden.
Die neue Spalte AverageDelay enthält den Durchschnitt aller Verzögerungszeiten.
Überprüfen Sie Ihren Fortschritt
Copy link to section
Die folgende Abbildung zeigt die ersten vier Zeilen der Daten.
Aufgabe 5: Job für den Ablauf Data Refinery ausführen
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 04:16 starten.
Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, werden die Schritte für das gesamte Dataset ausgeführt. Wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu. Die Ausgabe des Data Refinery-Ablaufs wird zu den Datenassets im Projekt hinzugefügt. Führen Sie die folgenden Schritte aus, um einen Job zum Erstellen des optimierten Datasets auszuführen.
Klicken Sie in der Data Refinery auf das Symbol Jobs und wählen Sie Speichern und einen Job erstellen. '
Geben Sie einen Namen und eine Beschreibung für den Job ein und klicken Sie auf Weiter.
Wählen Sie eine Laufzeitumgebung aus und klicken Sie auf Weiter.
(Optional) Klicken Sie auf die Umschaltfläche, um eine Ausführung zu planen. Geben Sie das Datum und die Uhrzeit an, legen Sie fest, ob der Job wiederholt werden soll, und klicken Sie auf Weiter.
(Optional) Aktivieren Sie Benachrichtigungen für den Job und klicken Sie auf Weiter.
Überprüfen Sie die Details, und klicken Sie auf Erstellen und Ausführen, um den Auftrag sofort auszuführen. '
Wenn der Job erstellt ist, klicken Sie auf den Link zu den Jobdetails in der Benachrichtigung, um den Job in Ihrem Projekt anzuzeigen. Sie können stattdessen auch zur Registerkarte Jobs im Projekt navigieren und auf den Jobnamen klicken, um den Job zu öffnen.
Wenn der Status für den Job Abgeschlossenlautet, navigieren Sie mithilfe des Projektnavigationspfads zurück zur Registerkarte Assets im Projekt.
Klicken Sie auf den Abschnitt Daten > Datenassets , um die Ausgabe des Data Refinery -Ablaufs airline-data_shaped.csvanzuzeigen.
Klicken Sie auf den Abschnitt Datenflüsse > Data Refinery , um den Datenfluss Data Refinery airline-data.csv_flowanzuzeigen.
Überprüfen Sie Ihren Fortschritt
Copy link to section
Die folgende Abbildung zeigt die Registerkarte 'Assets' mit dem Datenfluss Data Refinery und dem geformten Asset.
Aufgabe 6: Weiteres Datenasset aus dem Ablauf Data Refinery erstellen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 05:26 an.
Führen Sie die folgenden Schritte aus, um das Dataset durch Bearbeiten des Ablaufs Data Refinery weiter einzugrenzen:
Klicken Sie auf airline-data.csv_flow , um den Ablauf in Data Refineryzu öffnen.
Sortieren Sie die Spalte AverageDelay in absteigender Reihenfolge.
Wählen Sie die Spalte AverageDelay aus.
Klicken Sie auf das Menü Überlauf der Spalte () und wählen Sie dann Absteigend sortieren.
Klicken Sie auf das Symbol für die Flusseinstellungen " .
Klicken Sie auf die Anzeige Zieldatei .
Klicken Sie auf Eigenschaften bearbeiten.
Ändern Sie im Dialogfeld " Zieleigenschaften formatieren " den Namen des Datenelements in " airline-data_sorted_shaped.csvIn die Zwischenablage kopiert. '
Klicken Sie auf Speichern , um zu den Flow-Einstellungen zurückzukehren.
Klicken Sie auf Anwenden, um die Einstellungen zu speichern.
Klicken Sie in der Data Refinery auf das Symbol Jobs und wählen Sie Jobs speichern und anzeigen. '
Wählen Sie den Job für die Flugliniendaten aus und klicken Sie anschließend auf Anzeigen.
Klicken Sie in der Symbolleiste des Auftragsfensters auf das Symbol Auftrag ausführen. '
Überprüfen Sie Ihren Fortschritt
Copy link to section
Die folgende Abbildung zeigt die Details des abgeschlossenen Jobs.
Aufgabe 7: Datenassets und Ihren Data Refinery -Ablauf in einem Projekt anzeigen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 06:40 an.
Führen Sie nun die folgenden Schritte aus, um die drei Datenassets anzuzeigen: das Original, das erste optimierte Dataset und das zweite optimierte Dataset:
Rufen Sie die Projektseite auf, wenn der Job abgeschlossen ist.
Klicken Sie auf die Registerkarte Assets.
Im Abschnitt Datenassets wird die von Ihnen hochgeladene ursprüngliche Datei gemeinsam mit der Ausgabe der beiden Data Refinery-Abläufe angezeigt.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Klicken Sie auf das Datenasset airline-data_csv_shaped , um die mittlere Verzögerung unsortiert anzuzeigen. Navigieren Sie zurück zur Registerkarte Assets .
Klicken Sie auf das Datenasset airline-data_sorted_shaped.csv, damit der Mittelwert für Verspätungen in absteigender Reihenfolge sortiert angezeigt wird. Navigieren Sie zurück zur Registerkarte Assets .
Klicken Sie auf den Abschnitt Flows > Data Refinery -Abläufe , um den Ablauf Data Refinery anzuzeigen: airline-data.csv_flow.
Überprüfen Sie Ihren Fortschritt
Copy link to section
Die folgende Abbildung zeigt die Registerkarte "Assets" mit allen angezeigten Assets.
Nächste Schritte
Copy link to section
Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:
Über den Einsatz von Cookies auf dieser WebsiteUnsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten.Weitere Informationen finden Sie in Ihren Cookie-Benutzervorgaben. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben.Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.