Sie können bei der Vorbereitung von Daten Zeit sparen, indem Sie große Mengen an Rohdaten schnell für eine sofortige Analyse in verwendbare, hochqualitative Informationen umwandeln. Informieren Sie sich anhand der entsprechenden Abschnitte über das Tool 'Data Refinery', sehen Sie sich dann ein Video an und absolvieren Sie ein Lernprogramm, das für Anfänger geeignet ist und bei dem keine Programmierung erforderlich ist.
- Erforderlicher Service
- watsonx.ai Studio oder IBM Knowledge Catalog
Ihr grundlegender Workflow umfasst die folgenden Tasks:
- Sie erstellen ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
- Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
- Öffnen Sie die Daten in Data Refinery.
- Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
- Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.
Informationen zu Data Refinery
Verwende Data Refinery, um tabellarische Daten zu bereinigen und mit einem grafischen Ablaufeditor zu formen. Du kannst auch interaktive Vorlagen für das Codieren von Operationen, Funktionen und logischen Operatoren verwenden. Bei der Datenbereinigung korrigieren oder entfernen Sie fehlerhafte, unvollständige, falsch formatierte oder doppelt vorhandene Daten. Beim Formen von Daten passen Sie die Daten durch Herausfiltern, Sortieren, Kombinieren oder Entfernen von Spalten und durch Ausführen von Operationen an.
Sie erstellen einen Data Refinery-Ablauf als geordnete Folge von Operationen, die auf Daten angewendet werden. Data Refinery umfasst eine grafische Oberfläche zum Erstellen von Profilen für Ihre Daten und ihre Validierung und beinhaltet außerdem über 20 anpassbare Diagramme, die verschiedene Perspektiven veranschaulichen und Einblicke in Ihre Daten liefern. Wenn Sie das verfeinerte Dataset speichern, wird es in der Regel an einer anderen Position geladen als der, von der aus der Lesevorgang erfolgt. Auf diese Weise bleiben Ihre Quellendaten vom Verfeinerungsprozess unberührt.
Video zum Verfeinern von Daten ansehen
Sehen Sie sich dieses Video an, um zu erfahren, wie Sie Daten verfeinern können.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Videomitschrift Zeit Transkription 00:00 Das Video zeigt, wie Rohdaten mit Data Refinery geformt werden. 00:05 Beginnen Sie mit der Verfeinerung von Daten aus einem Projekt, indem das Datenasset anzeigen und in Data Refinery öffnen. 00:14 Das Teilfenster "Information" enthält den Namen für den Datenfluss und für die Datenflussausgabe, nachdem Sie die Daten verfeinert haben. 00:23 Auf der Registerkarte "Daten" wird eine Beispielgruppe der Zeilen und Spalten im Dataset angezeigt. 00:29 Um die Leistung zu verbessern, werden nicht alle Zeilen im Shaper angezeigt. 00:33 Sie können jedoch sicher sein, dass nach der Datenverfeinerung der Datenfluss für die vollständige Datei ausgeführt wird. 00:41 Auf der Registerkarte "Profil" werden Häufigkeits-und Auswertungsstatistiken für jede Ihrer Spalten angezeigt. 00:49 Die Registerkarte "Visualisierungen" stellt Datenvisualisierungen für die Spalten bereit, an denen Sie interessiert sind. 00:57 Vorgeschlagene Diagrammtypen sind jeweils durch einen blauen Punkt neben dem entsprechenden Symbol gekennzeichnet. 01:03 Verwenden Sie die unterschiedlichen in den Diagrammen verfügbaren Perspektiven, um Muster, Verbindungen und Beziehungen innerhalb der Daten zu aufzudecken. 01:12 Nun, lassen Sie uns eine gewisse Datenaufbereitung durchführen. 01:17 Beginnen Sie mit einer einfachen Operation, wie z. B. der Sortierung nach der angegebenen Spalte-in diesem Fall der Spalte "Jahr". 01:27 Wenn Sie sich auf Verspätungen nur für eine bestimmte Fluggesellschaft konzentrieren möchten, können Sie die Daten so filtern, dass nur die Zeilen angezeigt werden, in denen die eindeutige Fluggesellschaft "United Airlines" ist. 01:47 Auch die Verspätungen insgesamt sind interessant. 01:50 Erstellen Sie dazu eine neue Spalte, um die Verspätungen bei Ankunft und Abflug zu kombinieren. 01:56 Beachten Sie, dass der Spaltentyp als ganze Zahl abgeleitet wird. 02:00 Wählen Sie die Spalte Abfahrtsverzögerung aus und verwenden Sie die Operation "Berechnen". 02:09 In diesem Fall fügen Sie die Spalte "Ankunftsverzögerung" zur ausgewählten Spalte hinzu und erstellen eine neue Spalte mit der Bezeichnung "TotalDelay". 02:23 Sie können die neue Spalte am Ende der Spaltenliste oder neben der ursprünglichen Spalte positionieren. 02:31 Wenn Sie die Operation anwenden, wird die neue Spalte neben der Spalte 'Abgangsverzögerung' angezeigt. 02:38 Wenn Sie einen Fehler machen oder einfach eine Änderung vornehmen möchten, rufen Sie einfach die Anzeige "Schritte" auf und löschen Sie diesen Schritt. 02:46 Dadurch wird die betreffende Operation rückgängig gemacht. 02:50 Sie können auch die Schaltflächen für Wiederholen und Widerrufen verwenden. 02:56 Als Nächstes möchten Sie sich auf die Spalte "TotalDelay" konzentrieren, damit Sie die Spalte mit der Operation "Auswählen" an den Anfang verschieben können. 03:09 Dieser Befehl ordnet die Spalte "TotalDelay" als erste in der Liste an, und alles andere kommt danach. 03:21 Verwenden Sie anschließend die Operation "group_by", um die Daten in Gruppen nach Jahr, Monat und Tag aufzuteilen. 03:32 Wenn Sie also die Spalte "TotalDelay" auswählen, sehen Sie die Spalten "Year", "Month", "DayofMonth", und "TotalDelay". 03:44 Schließlich möchten Sie den Mittelwert der Spalte "TotalDelay" ermitteln. 03:48 Wenn Sie das Menü "Operationen" erweitern, finden Sie im Abschnitt "Organisieren" die Operation "Aggregieren", die die Funktion "Mittelwert" enthält. 04:08 Jetzt haben Sie eine neue Spalte mit der Bezeichnung "AverageDelay", die den Durchschnitt für die Gesamtverzögerung darstellt. 04:17 Führen Sie nun den Datenfluss aus und speichern und erstellen Sie den Job. 04:24 Geben Sie einen Namen für den Job an und fahren Sie mit der nächsten Anzeige fort. 04:28 Mit dem Schritt "Konfigurieren" können Sie die Ein-und Ausgabe Ihrer Jobausführung überprüfen. 04:36 Wählen Sie die Umgebung aus, in der der Job ausgeführt wird. 04:41 Die Zeitplanung für einen Job ist optional, aber Sie können ein Datum festlegen und den Job wiederholen, wenn Sie möchten. 04:51 Sie können Benachrichtigungen für diesen Job empfangen. 04:56 Alles sieht gut aus. Erstellen und führen Sie den Job nun aus. 05:00 Dies kann mehrere Minuten dauern, da der Datenfluss für die vollständige Datei ausgeführt wird. 05:06 In der Zwischenzeit können Sie den Status anzeigen. 05:12 Wenn die Ausführung konkurriert, können Sie zur Registerkarte "Assets" im Projekt zurückkehren. 05:20 Öffnen Sie den Datenfluss Data Refinery , um die Daten weiter zu optimieren. 05:28 Sie könnten zum Beispiel die Spalte "AverageDelay" in absteigender Reihenfolge sortieren. 05:36 Bearbeiten Sie jetzt die Ablaufeinstellungen. 05:39 In der Anzeige "Allgemein" können Sie den Namen des Data Refinery -Ablaufs ändern. 05:46 In der Anzeige "Quellendatasets" können Sie das Beispiel oder Format für das Quellendataset bearbeiten oder die Datenquelle ersetzen. 05:56 In der Anzeige "Zieldataset" können Sie eine alternative Position angeben, z. B. eine externe Datenquelle. 06:06 Sie können auch die Eigenschaften für das Ziel bearbeiten, z. B. den Schreibmodus, das Dateiformat und den Namen des Dataset-Assets. 06:21 Führen Sie nun den Datenfluss erneut aus. Speichern und zeigen Sie die Jobs nun jedoch an. 06:28 Wählen Sie den Job, der angezeigt werden soll, in der Liste aus und führen Sie den Job aus. 06:41 Kehren Sie nach Abschluss der Ausführung zum Projekt zurück. 06:46 Auf der Registerkarte "Assets" werden alle drei Dateien angezeigt: 06:51 Das Original. 06:54 Der erste verfeinerte Datensatz, der den "AverageDelay" unsortiert zeigt. 07:02 Und der zweite Datensatz, der die Spalte "AverageDelay" in absteigender Reihenfolge zeigt. 07:11 Auf der Registerkarte "Assets" befindet sich der Ablauf Data Refinery . 07:19 Weitere Videos finden Sie in der Dokumentation zu Cloud Pak for Data as a Service.
Lernprogramm zum Verfeinern von Daten absolvieren
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Projekt öffnen
- Aufgabe 2: Dataset in Data Refineryöffnen
- Aufgabe 3: Daten mit Profilen und Visualisierungen überprüfen
- Aufgabe 4: Daten verfeinern.
- Task 5: Einen Job für den Ablauf Data Refinery ausführen
- Aufgabe 6: Ein weiteres Datenasset aus dem Ablauf Data Refinery erstellen.
- Aufgabe 7: Datenassets und Ihren Data Refinery -Ablauf in Ihrem Projekt anzeigen.
Für dieses Lernprogramm benötigen Sie ungefähr 30 Minuten.
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im Cloud Pak for Data Community Diskussionsforum finden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Aufgabe 1: Projekt öffnen
Sie benötigen ein Projekt zum Speichern der Daten und des Data Refinery-Ablaufs. Sie können ein vorhandenes Projekt verwenden oder ein Projekt erstellen.
Wählen Sie im Navigationsmenü ' Projekte > Alle Projekte anzeigen
Öffnen Sie ein vorhandenes Projekt. Wenn Sie ein neues Projekt verwenden möchten:
Klicken Sie auf Neues Projekt.
Wählen Sie Leeres Projekt erstellen aus.
Geben Sie einen Namen und optional eine Beschreibung für das Projekt ein.
Wählen Sie eine vorhandene Objektspeicherserviceinstanz aus oder erstellen Sie eine neue.
Klicken Sie auf Erstellen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt ein neues, leeres Projekt.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.
Aufgabe 2: Dataset in Data Refinery öffnen
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:05 starten.
Führen Sie die folgenden Schritte aus, um Ihrem Projekt ein Datenasset hinzuzufügen und einen Data Refinery -Ablauf zu erstellen. Das Dataset, das Sie in diesem Lernprogramm verwenden werden, ist im Ressourcenhub verfügbar.
Greifen Sie auf die Daten der Fluggesellschaft in der Ressourcendrehscheibe zu.
Klicken Sie auf Zum Projekt hinzufügen.
Wählen Sie Ihr Projekt in der Liste aus und klicken Sie auf Add.
Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.
Weitere Informationen zum Hinzufügen eines Datenassets aus dem Ressourcenhub zu einem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.
Klicken Sie auf der Registerkarte Assets auf das Datenasset airline-data.csv , um eine Vorschau des Inhalts anzuzeigen.
Klicken Sie auf Daten vorbereiten , um eine Stichprobe der Datei in Data Refineryzu öffnen und zu warten, bis Data Refinery eine Stichprobe der Daten liest und verarbeitet.
Schließen Sie die Anzeigen Informationen und Schritte .
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das in Data Refinerygeöffnete Airline-Datenasset.
Aufgabe 3: Daten mit Profil und Visualisierungen überprüfen
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:47 starten.
Der Inhalt eines Assets wird automatisch anhand der Werte in diesen Spalten profiliert und klassifiziert. Führen Sie die folgenden Schritte aus, um die Daten mithilfe der Registerkarten 'Profil' und 'Visualisierungen ' zu untersuchen.
Klicken Sie auf die Registerkarte Profil, um die Häufigkeitsverteilung der Daten zu überprüfen, sodass Sie Anomalien (Ausreißer) ausfindig machen können.
Blättern Sie durch die Spalten, um die Statistikdaten für jede Spalte anzuzeigen. Die Statistiken zeigen den Interquartilbereich, das Minimum, das Maximum, den Median und die Standardabweichung in den einzelnen Spalten.
Bewegen Sie den Mauszeiger über einen Balken, um weitere Details anzuzeigen.
Das folgende Bild zeigt die Registerkarte Profil:
'Klicken Sie auf die Registerkarte Visualisierungen.
Wählen Sie die Spalte UniqueCarrier für die Darstellung aus. Vorgeschlagene Diagrammtypen sind jeweils durch einen blauen Punkt neben dem entsprechenden Symbol gekennzeichnet.
Klicken Sie auf das Kreisdiagramm . Verwenden Sie die unterschiedlichen in den Diagrammen verfügbaren Perspektiven, um Muster, Verbindungen und Beziehungen innerhalb der Daten zu aufzudecken.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte 'Visualizations' (Visualisierungen). Sie können nun die Daten optimieren.
Aufgabe 4: Daten verfeinern
Data Refinery-Operationen
Data Refinery verwendet zwei Arten von Operationen zum Verfeinern von Daten: GUI-Operationen und Codierungsoperationen. Im vorliegenden Lernprogramm werden Sie beide Arten von Operationen verwenden.
GUI-Operationen können aus mehreren Schritten bestehen. Wählen Sie eine Operation aus Neuer Schritt aus. Eine Teilmenge der GUI-Operationen ist auch über das Overflow-Menü jeder Spalte () verfügbar.
Wenn Sie eine Datei in Data Refinery öffnen, wird die Operation Spaltentyp konvertieren automatisch als erster Schritt angewendet, um alle Datentypen, die keine Zeichenfolgen sind, in abgeleitete Datentypen zu konvertieren (z. B. in Integer, Datum, Boolesch usw.). Sie können diesen Schritt rückgängig machen oder bearbeiten.
Codierungsoperationen sind interaktive Vorlagen für das Codieren von Operationen, Funktionen und logische Operatoren. Für die meisten Operationen wird interaktive Hilfe angeboten. Klicken Sie im Textfeld für die Befehlszeile auf den Namen der Operation, damit die Codierungsoperationen und die zugehörigen Syntaxoptionen angezeigt werden.
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:16 an.
Das Optimieren von Daten umfasst eine Abfolge von Schritten zum Erstellen eines Data Refinery-Ablaufs. Zeigen Sie während dieser Task die Anzeige Schritte an, um Ihren Fortschritt zu verfolgen. Sie können einen Schritte auswählen und dann löschen oder bearbeiten. Wenn Sie einen Fehler machen, können Sie auch auf das Rückgängig-Symbol " klicken. Führen Sie die folgenden Schritte aus, um die Daten zu optimieren:
Kehren Sie zur Registerkarte Daten zurück.
Wählen Sie die Spalte Year aus. Klicken Sie auf das Menü Überlauf () und wählen Sie Absteigend sortieren.
Klicken Sie auf Schritte , um den neuen Schritt im Fenster Schritte anzuzeigen.
Konzentrieren Sie sich auf die Verspätungen für eine bestimmte Fluggesellschaft. In diesem Lernprogramm wird United Airlines (UA) verwendet, Sie können jedoch jede beliebige Fluggesellschaft auswählen.
Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Filter aus.
Wählen Sie die Spalte für die Fluggesellschaften UniqueCarrier aus.
Wählen Sie als Operator die Option Ist gleich aus.
Geben Sie für Wert die Zeichenfolge für die Fluggesellschaft ein, für die Verspätungsinformationen angezeigt werden sollen. Zum Beispiel: '
UA
.
'Klicken Sie auf Anwenden. Blättern Sie zur Spalte UniqueCarrier, um die Ergebnisse anzuzeigen.
Erstellen Sie eine neue Spalte, in der die Verspätungen für Ankunft und Abflug summiert werden.
Wählen Sie die Spalte DepDelay aus.
Beachten Sie, dass die Operation Spaltentyp konvertieren automatisch als erster Schritt angewendet wurde, um die Zeichenfolgedatentypen in allen Spalten, bei deren Werten es sich um Zahlen handelt, in ganzzahlige Datentypen zu konvertieren.
Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Berechnen aus.
Wählen Sie als Operator die Option Addition aus.
Wählen Sie Spalteund anschließend die Spalte ArrDelay aus.
Wählen Sie die Option Create new column for results (Neue Spalte für Ergebnisse erstellen) aus.
Für Neue Spaltennamen geben Sie '
TotalDelay
.
'Sie können die neue Spalte am Ende der Spaltenliste oder neben der ursprünglichen Spalte positionieren. Wählen Sie in diesem Fall Neben der ursprünglichen Spalteaus.
Klicken Sie auf Anwenden. Die neue Spalte " TotalDelay" wird hinzugefügt.
Verschieben Sie die neue Spalte TotalDelay an den Anfang der Datei:
Wählen Sie im Textfeld für die Befehlszeile die Operation select aus.
Klicken Sie auf das Wort selectund wählen Sie dann select (`
<column>
`, everything ())aus.Klicken Sie auf
`<column>`
und wählen Sie dann die Spalte TotalDelay aus. Nachdem Sie diesen Schritt ausgeführt haben, müsste der Befehl wie folgt aussehen:select(`TotalDelay`, everything())
Klicken Sie auf Anwenden. Die Spalte TotalDelay ist jetzt die erste Spalte.
Reduzieren Sie die Daten auf vier Spalten: Year, Month, DayofMonth und TotalDelay. Verwenden Sie die Codierungsoperation group_by, um die Spalten in Gruppen nach Jahr, Monat und Tag zu unterteilen.
Wählen Sie im Textfeld für die Befehlszeile die Operation group_by aus.
Klicken Sie auf
<column>
und wählen Sie dann die Spalte Year aus.Geben Sie vor der rechten runden Klammer Folgendes ein:
,Month,DayofMonth
. Nachdem Sie diesen Schritt ausgeführt haben, müsste der Befehl wie folgt aussehen:group_by(`Year`,Month,DayofMonth)
Klicken Sie auf Anwenden.
Verwenden Sie die Codierungsoperation select für die Spalte TotalDelay. Wählen Sie im Textfeld für die Befehlszeile die Operation select aus.
Klicken Sie auf<column>
und wählen Sie die Spalte TotalDelay aus. Der Befehl sollte nun wie folgt aussehen:select(`TotalDelay`)
Klicken Sie auf Anwenden. Die geformten Daten bestehen jetzt aus den Spalten Year, Month, DayofMonth und TotalDelay.
Das folgende Bild zeigt die ersten vier Zeilen der Daten.
'
Zeigen Sie den Mittelwert der Werte der Spalte TotalDelay an und erstellen Sie eine neue Spalte AverageDelay :
Klicken Sie auf Neuer Schritt und wählen Sie dann die GUI-Operation Aggregieren aus.
Wählen Sie als Spalte TotalDelayaus.
Wählen Sie für Operatordie Option Mittelwertaus.
Für Name der aggregierten Spalte geben Sie '
AverageDelay
.
'Klicken Sie auf Anwenden.
Die neue Spalte AverageDelay enthält den Durchschnitt aller Verzögerungszeiten.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die ersten vier Zeilen der Daten.
Aufgabe 5: Job für den Ablauf Data Refinery ausführen
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 04:16 starten.
Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, werden die Schritte für das gesamte Dataset ausgeführt. Wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu. Die Ausgabe des Data Refinery-Ablaufs wird zu den Datenassets im Projekt hinzugefügt. Führen Sie die folgenden Schritte aus, um einen Job zum Erstellen des optimierten Datasets auszuführen.
Klicken Sie in der Data Refinery auf das Symbol Jobs und wählen Sie Speichern und einen Job erstellen.
'Geben Sie einen Namen und eine Beschreibung für den Job ein und klicken Sie auf Weiter.
Wählen Sie eine Laufzeitumgebung aus und klicken Sie auf Weiter.
(Optional) Klicken Sie auf die Umschaltfläche, um eine Ausführung zu planen. Geben Sie das Datum und die Uhrzeit an, legen Sie fest, ob der Job wiederholt werden soll, und klicken Sie auf Weiter.
(Optional) Aktivieren Sie Benachrichtigungen für den Job und klicken Sie auf Weiter.
Überprüfen Sie die Details, und klicken Sie auf Erstellen und Ausführen, um den Auftrag sofort auszuführen.
'Wenn der Job erstellt ist, klicken Sie auf den Link zu den Jobdetails in der Benachrichtigung, um den Job in Ihrem Projekt anzuzeigen. Sie können stattdessen auch zur Registerkarte Jobs im Projekt navigieren und auf den Jobnamen klicken, um den Job zu öffnen.
Wenn der Status für den Job Abgeschlossenlautet, navigieren Sie mithilfe des Projektnavigationspfads zurück zur Registerkarte Assets im Projekt.
Klicken Sie auf den Abschnitt Daten > Datenassets , um die Ausgabe des Data Refinery -Ablaufs airline-data_shaped.csvanzuzeigen.
Klicken Sie auf den Abschnitt Datenflüsse > Data Refinery , um den Datenfluss Data Refinery airline-data.csv_flowanzuzeigen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte 'Assets' mit dem Datenfluss Data Refinery und dem geformten Asset.
Aufgabe 6: Weiteres Datenasset aus dem Ablauf Data Refinery erstellen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 05:26 an.
Führen Sie die folgenden Schritte aus, um das Dataset durch Bearbeiten des Ablaufs Data Refinery weiter einzugrenzen:
Klicken Sie auf airline-data.csv_flow , um den Ablauf in Data Refineryzu öffnen.
Sortieren Sie die Spalte AverageDelay in absteigender Reihenfolge.
Wählen Sie die Spalte AverageDelay aus.
Klicken Sie auf das Menü Überlauf der Spalte () und wählen Sie dann Absteigend sortieren.
Klicken Sie auf das Symbol für die Flusseinstellungen " .
Klicken Sie auf die Anzeige Zieldatei .
Klicken Sie auf Eigenschaften bearbeiten.
Ändern Sie im Dialogfeld " Zieleigenschaften formatieren " den Namen des Datenelements in "
airline-data_sorted_shaped.csv
.
'Klicken Sie auf Speichern , um zu den Flow-Einstellungen zurückzukehren.
Klicken Sie auf Anwenden, um die Einstellungen zu speichern.
Klicken Sie in der Data Refinery auf das Symbol Jobs und wählen Sie Jobs speichern und anzeigen.
'Wählen Sie den Job für die Flugliniendaten aus und klicken Sie anschließend auf Anzeigen.
Klicken Sie in der Symbolleiste des Auftragsfensters auf das Symbol Auftrag ausführen.
'
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Details des abgeschlossenen Jobs.
Aufgabe 7: Datenassets und Ihren Data Refinery -Ablauf in einem Projekt anzeigen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 06:40 an.
Führen Sie nun die folgenden Schritte aus, um die drei Datenassets anzuzeigen: das Original, das erste optimierte Dataset und das zweite optimierte Dataset:
Rufen Sie die Projektseite auf, wenn der Job abgeschlossen ist.
Klicken Sie auf die Registerkarte Assets.
Im Abschnitt Datenassets wird die von Ihnen hochgeladene ursprüngliche Datei gemeinsam mit der Ausgabe der beiden Data Refinery-Abläufe angezeigt.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Klicken Sie auf das Datenasset airline-data_csv_shaped , um die mittlere Verzögerung unsortiert anzuzeigen. Navigieren Sie zurück zur Registerkarte Assets .
Klicken Sie auf das Datenasset airline-data_sorted_shaped.csv, damit der Mittelwert für Verspätungen in absteigender Reihenfolge sortiert angezeigt wird. Navigieren Sie zurück zur Registerkarte Assets .
Klicken Sie auf den Abschnitt Flows > Data Refinery -Abläufe , um den Ablauf Data Refinery anzuzeigen:
airline-data.csv_flow
.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte "Assets" mit allen angezeigten Assets.
Nächste Schritte
Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:
Zusätzliche Ressourcen
Sehen Sie sich weitere Videos zu Data Refinery an.
In der Ressourcendrehscheibe finden Sie Beispieldatensätze, um praktische Erfahrungen mit der Datenveredelung zu sammeln.
Versuchen Sie dieses zusätzliche Tutorial für Data Refinery: Sammeln, bereinigen und verbessern Sie Ihre Daten ' .
Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg