0 / 0
Zurück zur englischen Version der Dokumentation
Schnelleinstieg: Daten transformieren

Schnelleinstieg: Daten transformieren

Sie können Daten aus unterschiedlichen Datenquellen mithilfe eines DataStage-Ablaufs ganz einfach integrieren, bereinigen und analysieren. Lesen Sie die Informationen zum DataStage-Tool, sehen Sie sich dann das Video an und führen Sie ein Lernprogramm durch, das für Benutzer mit einigen Kenntnissen zur Datentransformation geeignet ist, für die jedoch keine Codierung vorgenommen werden muss.

Erforderliche Services
Watson Studio
DataStage

Ihr grundlegender Workflow umfasst die folgenden Tasks:

  1. Sie erstellen ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
  2. Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
  3. Erstellen Sie einen DataStage-Ablauf.
  4. Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
  5. Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.

Informationen zu DataStage

DataStage ist ein ETL-Tool (Extrahieren, Transformieren und Laden), mit dem Sie Daten in Projekten transformieren und integrieren können.

DataStage ist für Bedienungskomfort konzipiert und vollständig in Cloud Pak for Data integriert. Sie können Ihre vorhandenen traditionellen parallelen Jobs in DataStage durch die Verwendung von ISX-Dateien importieren. Verwenden Sie den DataStage-Entwicklungsbereich, um Abläufe zu erstellen, zu bearbeiten und zu testen und um Jobs auszuführen, die aus den Abläufen generiert werden.

Weitere Informationen zu DataStage

Video zum Transformieren von Daten mithilfe eines DataStage-Ablaufs ansehen

Video ansehen In diesem Video wird gezeigt, wie ein einfacher DataStage-Ablauf erstellt wird.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.


Lernprogramm zum Transformieren von Daten absolivieren

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Für dieses Lernprogramm benötigen Sie ungefähr 20 Minuten.





Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.

Verwenden Sie das Videobild im Bild

Tipp: Starten Sie das Video. Wenn Sie dann durch das Lernprogramm blättern, wechselt das Video in den Bildmodus. Schließen Sie das Video-Inhaltsverzeichnis für die beste Erfahrung mit Bild-in-Bild. Sie können den Modus "Bild im Bild" verwenden, damit Sie dem Video folgen können, während Sie die Tasks in diesem Lernprogramm ausführen. Klicken Sie auf die Zeitmarken für jede zu befolgende Task.

Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:

Verwendung von Bildern und Kapiteln

Hilfe in der Community anfordern

Wenn Sie Hilfe bei diesem Lernprogramm benötigen, können Sie eine Frage stellen oder eine Antwort im Diskussionsforum derCloud Pak for Data Communityfinden.

Browserfenster einrichten

Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.

Paralleles Lernprogramm und Benutzerschnittstelle

Tipp: Wenn Sie beim Durcharbeiten dieses Lernprogramms in der Benutzerschnittstelle auf eine geführte Tour stoßen, klicken Sie auf Vielleicht später.



Aufgabe 1: Projekt öffnen

Sie benötigen ein Projekt zum Speichern des Datasets und des DataStage -Ablaufs und Sie müssen den DataStage -Service bereitstellen. Führen Sie die folgenden Schritte aus, um ein vorhandenes Projekt zu öffnen oder ein neues Projekt zu erstellen und den Service bereitzustellen:

  1. Wählen Sie im Navigationsmenü Cloud Pak for Data Navigationsmenüdie Optionen Projekte > Alle Projekte anzeigen aus.

  2. Wenn Sie über ein bestehendes Projekt verfügen, öffnen Sie es.

  3. Wenn kein Projekt vorhanden ist, klicken Sie auf Neues Projekt.

  4. Wählen Sie Leeres Projekt erstellen aus.

  5. Geben Sie einen Namen und optional eine Beschreibung für das Projekt ein.

  6. Klicken Sie auf Erstellen.

  7. Klicken Sie im Navigationsmenü Navigationsmenüauf Services > Serviceinstanzen.

  8. Klicken Sie auf Service hinzufügen und wählen Sie Datastage aus.

  9. Klicken Sie auf Erstellen. Der bereitgestellte Service wird auf der Seite Serviceinstanzen angezeigt.

Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.

Symbol für Prüfpunkt Fortschritt überprüfen

Die folgende Abbildung zeigt die bereitgestellten Services.

Die folgende Abbildung zeigt die bereitgestellten Services.




Aufgabe 2: Dataset zu Ihrem Projekt hinzufügen

Das in diesem Lernprogramm verwendete Dataset ist im Ressourcenhub verfügbar. Führen Sie die folgenden Schritte aus, um das Dataset im Ressourcenhub zu suchen und zu Ihrem Projekt hinzuzufügen:

  1. Greifen Sie auf das Kundendataset im Ressourcenhub zu.

  2. Klicken Sie auf Zum Projekt hinzufügen.

  3. Wählen Sie das Projekt in der Liste aus und klicken Sie dann auf Hinzufügen.

  4. Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.

Weitere Informationen zum Hinzufügen von Datenassets aus dem Ressourcenhub zu Ihrem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.

Symbol für Prüfpunkt Fortschritt überprüfen

Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt.

Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt.




Task 3: DataStage -Ablauf erstellen

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 00:26an.

Der DataStage -Flow enthält vier Knoten: das ursprüngliche Datenasset, einen Filterknoten, einen Sortierknoten und das transformierte Datenasset. Führen Sie die folgenden Schritte aus, um den DataStage -Ablauf zu erstellen:

  1. Klicken Neues Asset > Daten transformieren und integrieren .

  2. Geben Sie einen Namen und eine Beschreibung an und klicken Sie anschließend auf Erstellen.

  3. Klicken Sie auf Connectors und ziehen Sie den Knoten Asset-Browser dann in den Erstellungsbereich.

  4. Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen.

  5. Erweitern Sie in der Knotenpalette den Abschnitt Phasen und ziehen Sie den Knoten Filter in den Erstellungsbereich.

  6. Klicken Sie zum Verknüpfen der Knoten auf den blauen Pfeil des Knotens Customers.csv und ziehen Sie ihn auf den Knoten Filter .

  7. Ziehen Sie im Abschnitt Phasen den Knoten Sortieren in den Erstellungsbereich.

  8. Verbinden Sie den Knoten Filter mit dem Knoten Sortieren.

  9. Erweitern Sie den Abschnitt Connectors und ziehen Sie den Knoten Asset-Browser in den Erstellungsbereich.

  10. Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen. Sie werden den Dateinamen später ändern, sodass Sie die Datei 'customer.csv' nicht überschreiben.

  11. Verbinden Sie den Knoten Sortieren mit diesem letzten Customers.csv -Knoten.

Symbol für Prüfpunkt Fortschritt überprüfen

Die folgende Abbildung zeigt den ursprünglichen DataStage -Ablauf.

Die folgende Abbildung zeigt den ursprünglichen DataStage -Ablauf.




Aufgabe 4: Knoten bearbeiten

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 03:27an.

Gehen Sie wie folgt vor, um die Eigenschaften für jeden Knoten im Erstellungsbereich zu bearbeiten:

Knoten 1: Ersten Assetbrowserknoten bearbeiten

  1. Doppelklicken Sie auf den ersten Customer.csv -Knoten.

  2. Benennen Sie im Fenster Eigenschaften auf der rechten Seite den Knoten in Customer Table um, um den Assetknoten umzubenennen.

  3. Klicken Sie auf die Registerkarte Ausgabe.

  4. Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.

  5. Klicken Sie für die Spalte YTD_SALES auf VARCHAR und wählen Sie DECIMAL aus, um den Datentyp der Spalte YTD_SALES zu ändern.

  6. Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.

  7. Klicken Sie auf Speichern, um die Änderungen am Knoten Kundentabelle zu speichern.

Knoten 2: Filterknoten bearbeiten

  1. Klicken Sie doppelt auf den Knoten Filter.

  2. Benennen Sie in der Anzeige Eigenschaften den Text Filter_1 in Filter YTD Sales um, damit der Name des Filterknotens geändert wird.

  3. Erweitern Sie den Abschnitt Eigenschaften. Klicken Sie unter Prädikate auf Bearbeiten.

    1. Klicken Sie auf Where-Klausel hinzufügen.

    2. Geben Sie in der Spalte Where-Klausel YTD_SALES > 1000ein.

    3. Klicken Sie auf Anwenden und zurückkehren.

  4. Klicken Sie auf die Registerkarte Ausgabe.

  5. Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.

    1. Wählen Sie alle Spalten aus und wählen Sie die folgenden Spalten ab, die für dieses Lernprogramm beibehalten werden sollen.

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. Klicken Sie auf das Papierkorbsymbol, um die verbleibenden ausgewählten Spalten zu löschen.

    3. Benennen Sie die Spalte CUSTNAME in CUSTOMERNAME um. Diese Änderung wird an die Knoten weitergegeben, die auf den Knoten Filter folgen.

    4. Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.

  6. Klicken Sie auf Speichern, um die Änderungen am Knoten Filter zu speichern.

Knoten 3: Sortierknoten bearbeiten

  1. Klicken Sie doppelt auf den Knoten Sortieren.

  2. Benennen Sie in der Anzeige Eigenschaften den Text Sort_1 in Sort YTD Sales um, damit Name des Knotens 'Sortieren' geändert wird.

  3. Erweitern Sie den Abschnitt Eigenschaften.

  4. Klicken Sie unter Sortierungsschlüssel auf Bearbeiten.

    1. Klicken Sie auf Schlüssel hinzufügen.

    2. Wählen Sie in der Dropdown-Liste Schlüssel die Option YTD_SALES aus.

    3. Wählen Sie die Sortierreihenfolge Absteigend aus.

    4. Klicken Sie auf Anwenden, um zur Liste der Sortierschlüssel zurückzukehren.

    5. Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.

  5. Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.

  6. Klicken Sie auf die Registerkarte Ausgabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.

  7. Klicken Sie auf Speichern, um die Änderungen am Knoten Sortieren zu speichern.

Knoten 4: Letzten Assetbrowserknoten bearbeiten

  1. Doppelklicken Sie auf den letzten Customers.csv -Knoten.

  2. Benennen Sie in der Anzeige Eigenschaften den Knoten in Customer filtered table um, um den Assetknoten umzubenennen.

  3. Erweitern Sie den Abschnitt Eigenschaften und wählen Sie das Kontrollkästchen Datenasset erstellen aus.

  4. Geben Sie im Feld Name des Datenassets Customers filtered ein und klicken Sie auf Speichern.

  5. Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um sicherzustellen, dass die Namensänderung CUSTOMERNAME vom Knoten Filter nach unten weitergegeben wurde.

  6. Klicken Sie auf Speichern , um die Änderungen am Knoten Gefilterte Kundentabelle zu speichern.

Symbol für Prüfpunkt Fortschritt überprüfen

Die folgende Abbildung zeigt den endgültigen DataStage -Ablauf.

Die folgende Abbildung zeigt den endgültigen DataStage -Ablauf.




Aufgabe 5: DataStage -Ablauf ausführen und Asset anzeigen

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 06:36an.

Jetzt können Sie den Ablauf ausführen. Führen Sie die folgenden Schritte aus, um den Ablauf auszuführen und das transformierte Asset im Projekt anzuzeigen:

  1. Klicken Sie auf Speichern.

  2. Klicken Sie auf Kompilieren.

  3. Klicken Sie auf Run.

  4. (Optional) Klicken Sie auf den Link Protokoll, um die Ausführungsdetails anzuzeigen.

  5. Doppelklicken Sie auf den letzten Knoten Gefilterte Kundentabelle .

  6. Erweitern Sie den Abschnitt Eigenschaften.

  7. Blättern Sie abwärts und klicken Sie auf Datenvorschau. Sie können sehen, dass die Daten ordnungsgemäß gefiltert und sortiert wurden.

    1. Klicken Sie auf die Anzeige Diagramm .

    2. Wählen Sie für Zu visualisierende Spalten YTD_SALESaus.

    3. Klicken Sie für Diagrammtypauf Q-Q-Diagramm.

    4. Klicken Sie auf Schließen.

  8. Da Sie den Ablauf so konfigurieren, dass ein Datenasset im Projekt erstellt wird, klicken Sie auf den Projektnamen im Navigationspfad, um zu Ihrem Projekt zurückzukehren.

  9. Öffnen Sie auf der Registerkarte Assets das Asset Kunden gefiltert .

Symbol für Prüfpunkt Fortschritt überprüfen

Die folgende Abbildung zeigt das gefilterte Datenasset des Kunden.

Die folgende Abbildung zeigt das gefilterte Datenasset des Kunden.



Nächste Schritte

Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:

Zusätzliche Ressourcen

Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen