Schnelleinstieg: Daten transformieren
Sie können Daten aus unterschiedlichen Datenquellen mithilfe eines DataStage-Ablaufs ganz einfach integrieren, bereinigen und analysieren. Lesen Sie die Informationen zum DataStage-Tool, sehen Sie sich dann das Video an und führen Sie ein Lernprogramm durch, das für Benutzer mit einigen Kenntnissen zur Datentransformation geeignet ist, für die jedoch keine Codierung vorgenommen werden muss.
- Erforderliche Services
- Watson Studio
- DataStage
Ihr grundlegender Workflow umfasst die folgenden Tasks:
- Sie erstellen ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
- Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
- Erstellen Sie einen DataStage-Ablauf.
- Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
- Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.
Informationen zu DataStage
DataStage ist ein ETL-Tool (Extrahieren, Transformieren und Laden), mit dem Sie Daten in Projekten transformieren und integrieren können.
DataStage ist für Bedienungskomfort konzipiert und vollständig in Cloud Pak for Data integriert. Sie können Ihre vorhandenen traditionellen parallelen Jobs in DataStage durch die Verwendung von ISX-Dateien importieren. Verwenden Sie den DataStage-Entwicklungsbereich, um Abläufe zu erstellen, zu bearbeiten und zu testen und um Jobs auszuführen, die aus den Abläufen generiert werden.
Video zum Transformieren von Daten mithilfe eines DataStage-Ablaufs ansehen
In diesem Video wird gezeigt, wie ein einfacher DataStage-Ablauf erstellt wird.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Lernprogramm zum Transformieren von Daten absolivieren
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Projekt öffnen
- Aufgabe 2: Dataset zum Projekt hinzufügen
- Aufgabe 3: DataStage -Ablauf erstellen
- Aufgabe 4: Knoten bearbeiten
- Aufgabe 5: DataStage -Ablauf ausführen und Asset anzeigen
Für dieses Lernprogramm benötigen Sie ungefähr 20 Minuten.
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe bei diesem Lernprogramm benötigen, können Sie eine Frage stellen oder eine Antwort im Diskussionsforum derCloud Pak for Data Communityfinden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Aufgabe 1: Projekt öffnen
Sie benötigen ein Projekt zum Speichern des Datasets und des DataStage -Ablaufs und Sie müssen den DataStage -Service bereitstellen. Führen Sie die folgenden Schritte aus, um ein vorhandenes Projekt zu öffnen oder ein neues Projekt zu erstellen und den Service bereitzustellen:
Wählen Sie im Navigationsmenü Cloud Pak for Data die Optionen Projekte > Alle Projekte anzeigen aus.
Wenn Sie über ein bestehendes Projekt verfügen, öffnen Sie es.
Wenn kein Projekt vorhanden ist, klicken Sie auf Neues Projekt.
Wählen Sie Leeres Projekt erstellen aus.
Geben Sie einen Namen und optional eine Beschreibung für das Projekt ein.
Klicken Sie auf Erstellen.
Klicken Sie im Navigationsmenü auf Services > Serviceinstanzen.
Klicken Sie auf Service hinzufügen und wählen Sie Datastage aus.
Klicken Sie auf Erstellen. Der bereitgestellte Service wird auf der Seite Serviceinstanzen angezeigt.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.
Fortschritt überprüfen
Die folgende Abbildung zeigt die bereitgestellten Services.
Aufgabe 2: Dataset zu Ihrem Projekt hinzufügen
Das in diesem Lernprogramm verwendete Dataset ist im Ressourcenhub verfügbar. Führen Sie die folgenden Schritte aus, um das Dataset im Ressourcenhub zu suchen und zu Ihrem Projekt hinzuzufügen:
Greifen Sie auf das Kundendataset im Ressourcenhub zu.
Klicken Sie auf Zum Projekt hinzufügen.
Wählen Sie das Projekt in der Liste aus und klicken Sie dann auf Hinzufügen.
Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.
Weitere Informationen zum Hinzufügen von Datenassets aus dem Ressourcenhub zu Ihrem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.
Fortschritt überprüfen
Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt.
Task 3: DataStage -Ablauf erstellen
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 00:26an.
Der DataStage -Flow enthält vier Knoten: das ursprüngliche Datenasset, einen Filterknoten, einen Sortierknoten und das transformierte Datenasset. Führen Sie die folgenden Schritte aus, um den DataStage -Ablauf zu erstellen:
Klicken Neues Asset > Daten transformieren und integrieren .
Geben Sie einen Namen und eine Beschreibung an und klicken Sie anschließend auf Erstellen.
Klicken Sie auf Connectors und ziehen Sie den Knoten Asset-Browser dann in den Erstellungsbereich.
Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen.
Erweitern Sie in der Knotenpalette den Abschnitt Phasen und ziehen Sie den Knoten Filter in den Erstellungsbereich.
Klicken Sie zum Verknüpfen der Knoten auf den blauen Pfeil des Knotens Customers.csv und ziehen Sie ihn auf den Knoten Filter .
Ziehen Sie im Abschnitt Phasen den Knoten Sortieren in den Erstellungsbereich.
Verbinden Sie den Knoten Filter mit dem Knoten Sortieren.
Erweitern Sie den Abschnitt Connectors und ziehen Sie den Knoten Asset-Browser in den Erstellungsbereich.
Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen. Sie werden den Dateinamen später ändern, sodass Sie die Datei 'customer.csv' nicht überschreiben.
Verbinden Sie den Knoten Sortieren mit diesem letzten Customers.csv -Knoten.
Fortschritt überprüfen
Die folgende Abbildung zeigt den ursprünglichen DataStage -Ablauf.
Aufgabe 4: Knoten bearbeiten
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 03:27an.
Gehen Sie wie folgt vor, um die Eigenschaften für jeden Knoten im Erstellungsbereich zu bearbeiten:
Knoten 1: Ersten Assetbrowserknoten bearbeiten
Doppelklicken Sie auf den ersten Customer.csv -Knoten.
Benennen Sie im Fenster Eigenschaften auf der rechten Seite den Knoten in
Customer Table
um, um den Assetknoten umzubenennen.Klicken Sie auf die Registerkarte Ausgabe.
Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
Klicken Sie für die Spalte YTD_SALES auf VARCHAR und wählen Sie DECIMAL aus, um den Datentyp der Spalte YTD_SALES zu ändern.
Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
Klicken Sie auf Speichern, um die Änderungen am Knoten Kundentabelle zu speichern.
Knoten 2: Filterknoten bearbeiten
Klicken Sie doppelt auf den Knoten Filter.
Benennen Sie in der Anzeige Eigenschaften den Text
Filter_1
inFilter YTD Sales
um, damit der Name des Filterknotens geändert wird.Erweitern Sie den Abschnitt Eigenschaften. Klicken Sie unter Prädikate auf Bearbeiten.
Klicken Sie auf Where-Klausel hinzufügen.
Geben Sie in der Spalte Where-Klausel
YTD_SALES > 1000
ein.Klicken Sie auf Anwenden und zurückkehren.
Klicken Sie auf die Registerkarte Ausgabe.
Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
Wählen Sie alle Spalten aus und wählen Sie die folgenden Spalten ab, die für dieses Lernprogramm beibehalten werden sollen.
- CUST_ID
- CUSTNAME
- COUNTRY_CODE
- EMAIL_ADDRESS
- PHONE_NUMBER
- YTD_SALES
- SALESREP_ID
Klicken Sie auf das Papierkorbsymbol, um die verbleibenden ausgewählten Spalten zu löschen.
Benennen Sie die Spalte CUSTNAME in
CUSTOMERNAME
um. Diese Änderung wird an die Knoten weitergegeben, die auf den Knoten Filter folgen.Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
Klicken Sie auf Speichern, um die Änderungen am Knoten Filter zu speichern.
Knoten 3: Sortierknoten bearbeiten
Klicken Sie doppelt auf den Knoten Sortieren.
Benennen Sie in der Anzeige Eigenschaften den Text
Sort_1
inSort YTD Sales
um, damit Name des Knotens 'Sortieren' geändert wird.Erweitern Sie den Abschnitt Eigenschaften.
Klicken Sie unter Sortierungsschlüssel auf Bearbeiten.
Klicken Sie auf Schlüssel hinzufügen.
Wählen Sie in der Dropdown-Liste Schlüssel die Option YTD_SALES aus.
Wählen Sie die Sortierreihenfolge Absteigend aus.
Klicken Sie auf Anwenden, um zur Liste der Sortierschlüssel zurückzukehren.
Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.
Klicken Sie auf die Registerkarte Ausgabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.
Klicken Sie auf Speichern, um die Änderungen am Knoten Sortieren zu speichern.
Knoten 4: Letzten Assetbrowserknoten bearbeiten
Doppelklicken Sie auf den letzten Customers.csv -Knoten.
Benennen Sie in der Anzeige Eigenschaften den Knoten in
Customer filtered table
um, um den Assetknoten umzubenennen.Erweitern Sie den Abschnitt Eigenschaften und wählen Sie das Kontrollkästchen Datenasset erstellen aus.
Geben Sie im Feld Name des Datenassets
Customers filtered
ein und klicken Sie auf Speichern.Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.
Klicken Sie auf Speichern , um die Änderungen am Knoten Gefilterte Kundentabelle zu speichern.
Fortschritt überprüfen
Die folgende Abbildung zeigt den endgültigen DataStage -Ablauf.
Aufgabe 5: DataStage -Ablauf ausführen und Asset anzeigen
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 06:36an.
Jetzt können Sie den Ablauf ausführen. Führen Sie die folgenden Schritte aus, um den Ablauf auszuführen und das transformierte Asset im Projekt anzuzeigen:
Klicken Sie auf Speichern.
Klicken Sie auf Kompilieren.
Klicken Sie auf Run.
(Optional) Klicken Sie auf den Link Protokoll, um die Ausführungsdetails anzuzeigen.
Doppelklicken Sie auf den letzten Knoten Gefilterte Kundentabelle .
Erweitern Sie den Abschnitt Eigenschaften.
Blättern Sie abwärts und klicken Sie auf Datenvorschau. Sie können sehen, dass die Daten ordnungsgemäß gefiltert und sortiert wurden.
Klicken Sie auf die Anzeige Diagramm .
Wählen Sie für Zu visualisierende Spalten YTD_SALESaus.
Klicken Sie für Diagrammtypauf Q-Q-Diagramm.
Klicken Sie auf Schließen.
Da Sie den Ablauf so konfigurieren, dass ein Datenasset im Projekt erstellt wird, klicken Sie auf den Projektnamen im Navigationspfad, um zu Ihrem Projekt zurückzukehren.
Öffnen Sie auf der Registerkarte Assets das Asset Kunden gefiltert .
Fortschritt überprüfen
Die folgende Abbildung zeigt das gefilterte Datenasset des Kunden.
Nächste Schritte
Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:
Probieren Sie andere Lernprogramme aus:
Das Datenasset durch HInzufügen in einem Katalog im Unternehmen zur Verfügung stellen
Zusätzliche Ressourcen
Weitere Informationen finden Sie unter Videos.
Starten Sie mit dem DataStage-Beispielprojekt: COVID-19 Tracking with IBM DataStage.
Finden Sie Beispieldatasets, um praktische Erfahrung bei der Transformation von Daten im Ressourcenhubzu gewinnen.
Nutzen Sie dieses zusätzliche Lernprogramm, um mehr praktische Erfahrungen mit DataStage -Flows zu sammeln: Erste Schritte mit dem neuen IBM DataStage -Service .
Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg