Sie können Daten aus unterschiedlichen Datenquellen mithilfe eines DataStage-Ablaufs ganz einfach integrieren, bereinigen und analysieren. Lesen Sie die Informationen zum DataStage-Tool, sehen Sie sich dann das Video an und führen Sie ein Lernprogramm durch, das für Benutzer mit einigen Kenntnissen zur Datentransformation geeignet ist, für die jedoch keine Codierung vorgenommen werden muss.
- Erforderliche Services
- watsonx.ai Studio
- DataStage
Ihr grundlegender Workflow umfasst die folgenden Tasks:
- Sie erstellen ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
- Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
- Erstellen Sie einen DataStage-Ablauf.
- Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
- Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.
Informationen zu DataStage
DataStage ist ein ETL-Tool (Extrahieren, Transformieren und Laden), mit dem Sie Daten in Projekten transformieren und integrieren können.
DataStage ist auf Benutzerfreundlichkeit ausgelegt und vollständig in die Plattform integriert. Sie können Ihre vorhandenen traditionellen parallelen Jobs in DataStage durch die Verwendung von ISX-Dateien importieren. Verwenden Sie den DataStage-Entwicklungsbereich, um Abläufe zu erstellen, zu bearbeiten und zu testen und um Jobs auszuführen, die aus den Abläufen generiert werden.
Video zum Transformieren von Daten mithilfe eines DataStage-Ablaufs ansehen
In diesem Video wird gezeigt, wie ein einfacher DataStage-Ablauf erstellt wird.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Lernprogramm zum Transformieren von Daten absolivieren
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Projekt öffnen
- Aufgabe 2: Dataset zum Projekt hinzufügen
- Aufgabe 3: DataStage -Ablauf erstellen
- Aufgabe 4: Knoten bearbeiten
- Aufgabe 5: DataStage -Ablauf ausführen und Asset anzeigen
Für dieses Lernprogramm benötigen Sie ungefähr 20 Minuten.
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im Cloud Pak for Data Community Diskussionsforum finden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Aufgabe 1: Projekt öffnen
Sie benötigen ein Projekt zum Speichern des Datasets und des DataStage -Ablaufs und Sie müssen den DataStage -Service bereitstellen. Führen Sie die folgenden Schritte aus, um ein vorhandenes Projekt zu öffnen oder ein neues Projekt zu erstellen und den Service bereitzustellen:
Wählen Sie im Navigationsmenü ' Projekte > Alle Projekte anzeigen
Wenn Sie über ein bestehendes Projekt verfügen, öffnen Sie es.
Wenn kein Projekt vorhanden ist, klicken Sie auf Neues Projekt.
Wählen Sie Leeres Projekt erstellen aus.
Geben Sie einen Namen und optional eine Beschreibung für das Projekt ein.
Klicken Sie auf Erstellen.
Klicken Sie im Navigationsmenü " auf Dienste > Dienstinstanzen.
Klicken Sie auf Service hinzufügen und wählen Sie Datastage aus.
Klicken Sie auf Erstellen. Der bereitgestellte Service wird auf der Seite Serviceinstanzen angezeigt.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die bereitgestellten Services.
Aufgabe 2: Dataset zu Ihrem Projekt hinzufügen
Das in diesem Lernprogramm verwendete Dataset ist im Ressourcenhub verfügbar. Führen Sie die folgenden Schritte aus, um das Dataset im Ressourcenhub zu suchen und zu Ihrem Projekt hinzuzufügen:
Greifen Sie auf den Datensatz Kunden in der Ressourcendrehscheibe zu.
Klicken Sie auf Zum Projekt hinzufügen.
Wählen Sie das Projekt in der Liste aus und klicken Sie dann auf Hinzufügen.
Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.
Weitere Informationen zum Hinzufügen von Datenassets aus dem Ressourcenhub zu Ihrem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt.
Task 3: DataStage -Ablauf erstellen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 00:26 an.
Der DataStage -Flow enthält vier Knoten: das ursprüngliche Datenasset, einen Filterknoten, einen Sortierknoten und das transformierte Datenasset. Führen Sie die folgenden Schritte aus, um den DataStage -Ablauf zu erstellen:
Klicken Neues Asset > Daten transformieren und integrieren .
Geben Sie einen Namen und eine Beschreibung an und klicken Sie anschließend auf Erstellen.
Klicken Sie auf Connectors und ziehen Sie den Knoten Asset-Browser dann in den Erstellungsbereich.
Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen.
Erweitern Sie in der Knotenpalette den Abschnitt Phasen und ziehen Sie den Knoten Filter in den Erstellungsbereich.
Klicken Sie zum Verknüpfen der Knoten auf den blauen Pfeil des Knotens Customers.csv und ziehen Sie ihn auf den Knoten Filter .
Ziehen Sie im Abschnitt Phasen den Knoten Sortieren in den Erstellungsbereich.
Verbinden Sie den Knoten Filter mit dem Knoten Sortieren.
Erweitern Sie den Abschnitt Connectors und ziehen Sie den Knoten Asset-Browser in den Erstellungsbereich.
Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen. Sie werden den Dateinamen später ändern, sodass Sie die Datei 'customer.csv' nicht überschreiben.
Verbinden Sie den Knoten Sortieren mit diesem letzten Customers.csv -Knoten.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den anfänglichen Ablauf.
'
Aufgabe 4: Knoten bearbeiten
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 03:27 an.
Gehen Sie wie folgt vor, um die Eigenschaften für jeden Knoten im Erstellungsbereich zu bearbeiten:
Knoten 1: Ersten Assetbrowserknoten bearbeiten
Doppelklicken Sie auf den ersten Customer.csv -Knoten.
Benennen Sie im Fenster Eigenschaften auf der rechten Seite den Knoten in
CustomerTable
um, um den Assetknoten umzubenennen.Klicken Sie auf die Registerkarte Ausgabe.
Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
Wählen Sie für die Spalte YTD_SALES unter Datentyp die Option DECIMAL, um den Datentyp der Spalte YTD_SALES zu ändern.
Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
Klicken Sie auf Speichern, um die Änderungen am Knoten Kundentabelle zu speichern.
Knoten 2: Filterknoten bearbeiten
Klicken Sie doppelt auf den Knoten Filter.
Benennen Sie in der Anzeige Eigenschaften den Text
Filter_1
inFilterYTDSales
um, damit der Name des Filterknotens geändert wird.Erweitern Sie den Abschnitt Eigenschaften. Klicken Sie unter Prädikate auf Bearbeiten.
Geben Sie in der Spalte Where-Klausel
YTD_SALES > 1000
ein.Klicken Sie auf Anwenden und zurückkehren.
Klicken Sie auf die Registerkarte Ausgabe.
Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
Markieren Sie alle Spalten und heben Sie die Markierung der folgenden Spalten auf, die für dieses Lernprogramm beibehalten werden sollen.
- CUST_ID
- CUSTNAME
- COUNTRY_CODE
- EMAIL_ADDRESS
- PHONE_NUMBER
- YTD_SALES
- SALESREP_ID
Klicken Sie auf das Symbol Ausgewählte Zeilen löschen ' , um die übrigen ausgewählten Spalten zu löschen.
Benennen Sie die Spalte CUSTNAME in
CUSTOMERNAME
um. Diese Änderung wird an die Knoten weitergegeben, die auf den Knoten Filter folgen.Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
Klicken Sie auf Speichern, um die Änderungen am Knoten Filter zu speichern.
Knoten 3: Sortierknoten bearbeiten
Klicken Sie doppelt auf den Knoten Sortieren.
Benennen Sie in der Anzeige Eigenschaften den Text
Sort_1
inSortYTDSales
um, damit Name des Knotens 'Sortieren' geändert wird.Erweitern Sie den Abschnitt Eigenschaften.
Klicken Sie unter Sortierschlüssel auf Schlüssel hinzufügen.
Klicken Sie auf Schlüssel hinzufügen.
Wählen Sie in der Dropdown-Liste Schlüssel die Option YTD_SALES aus.
Wählen Sie die Sortierreihenfolge Absteigend aus.
Klicken Sie auf Anwenden, um zur Liste der Sortierschlüssel zurückzukehren.
Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.
Klicken Sie auf die Registerkarte Ausgabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.
Klicken Sie auf Speichern, um die Änderungen am Knoten Sortieren zu speichern.
Knoten 4: Letzten Assetbrowserknoten bearbeiten
Doppelklicken Sie auf den letzten Customers.csv -Knoten.
Benennen Sie in der Anzeige Eigenschaften den Knoten in
CustomerFilteredTable
um, um den Assetknoten umzubenennen.Erweitern Sie den Abschnitt Eigenschaften und wählen Sie das Kontrollkästchen Datenasset erstellen aus.
Geben Sie in das Feld Name der Datenanlage "
Customers filtered
ein.Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.
Klicken Sie auf Speichern , um die Änderungen am Knoten Gefilterte Kundentabelle zu speichern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den endgültigen Ablauf.
'
Aufgabe 5: DataStage -Ablauf ausführen und Asset anzeigen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 06:36 an.
Jetzt können Sie den Ablauf ausführen. Führen Sie die folgenden Schritte aus, um den Ablauf auszuführen und das transformierte Asset im Projekt anzuzeigen:
Klicken Sie auf Speichern.
Klicken Sie auf Kompilieren.
Klicken Sie auf Run.
(Optional) Klicken Sie auf den Link Protokoll, um die Ausführungsdetails anzuzeigen.
Doppelklicken Sie auf den letzten Knoten Gefilterte Kundentabelle .
Erweitern Sie den Abschnitt Eigenschaften.
Blättern Sie abwärts und klicken Sie auf Datenvorschau. Sie können sehen, dass die Daten ordnungsgemäß gefiltert und sortiert wurden.
Klicken Sie auf die Anzeige Diagramm .
Wählen Sie für Zu visualisierende Spalten YTD_SALESaus.
Klicken Sie für Diagrammtypauf Q-Q-Diagramm.
Klicken Sie auf Schließen.
Da Sie den Ablauf so konfigurieren, dass ein Datenasset im Projekt erstellt wird, klicken Sie auf den Projektnamen im Navigationspfad, um zu Ihrem Projekt zurückzukehren.
Öffnen Sie auf der Registerkarte Assets das Asset Kunden gefiltert .
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das gefilterte Datenasset des Kunden.
Nächste Schritte
Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:
Probieren Sie andere Lernprogramme aus:
Das Datenasset durch HInzufügen in einem Katalog im Unternehmen zur Verfügung stellen
Zusätzliche Ressourcen
Weitere Informationen finden Sie unter Videos.
In der Ressourcendrehscheibe finden Sie Beispieldatensätze, mit denen Sie praktische Erfahrungen bei der Umwandlung von Daten sammeln können.
Starten Sie mit dem DataStage-Beispielprojekt: COVID-19 Tracking with IBM DataStage.
Probieren Sie dieses zusätzliche Tutorial aus, um mehr praktische Erfahrung mit DataStage zu sammeln: Erste Schritte mit dem neuen IBM DataStage ' .
Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg