Schnelleinstieg: Daten transformieren

Sie können Daten aus unterschiedlichen Datenquellen mithilfe eines DataStage-Ablaufs ganz einfach integrieren, bereinigen und analysieren. Lesen Sie die Informationen zum DataStage-Tool, sehen Sie sich dann das Video an und führen Sie ein Lernprogramm durch, das für Benutzer mit einigen Kenntnissen zur Datentransformation geeignet ist, für die jedoch keine Codierung vorgenommen werden muss.

Erforderlicher Service DataStage

Ihr grundlegender Workflow umfasst die folgenden Tasks:

  1. Sie erstellen ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
  2. Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
  3. Erstellen Sie einen DataStage-Ablauf.
  4. Führen Sie entsprechende Schritte zum Verfeinern der Daten aus.
  5. Erstellen und führen Sie einen Job aus, um die Daten umzuwandeln.

Informationen zu DataStage

DataStage ist ein ETL-Tool (Extrahieren, Transformieren und Laden), mit dem Sie Daten in Projekten transformieren und integrieren können.

DataStage ist benutzerfreundlich konzipiert und vollständig in Cloud Pak for Data integriert. Sie können Ihre vorhandenen traditionellen parallelen Jobs in DataStage durch die Verwendung von ISX-Dateien importieren. Verwenden Sie den DataStage-Entwicklungsbereich, um Abläufe zu erstellen, zu bearbeiten und zu testen und um Jobs auszuführen, die aus den Abläufen generiert werden.

Weitere Informationen zu DataStage

Video zum Transformieren von Daten mithilfe eines DataStage-Ablaufs ansehen

Video ansehen In diesem Video wird gezeigt, wie ein einfacher DataStage-Ablauf erstellt wird.

Dieses Video bietet eine visuelle Darstellung als Alternative zu den im Folgenden schriftlich dokumentierten Schritten.

Lernprogramm zum Transformieren von Daten absolivieren

In diesem Lernprogramm führen Sie folgende Tasks aus:

  • Sie erstellen ein Projekt.
  • Stellen Sie den DataStage-Service bereit.
  • Fügen Sie ein Dataset aus der Gallery zu Ihrem Projekt hinzu.
  • Erstellen Sie einen DataStage-Ablauf.
  • Führen Sie Ihren Datastage-Ablauf aus und sehen Sie sich Ihr Asset an.

Für dieses Lernprogramm benötigen Sie ungefähr 20 Minuten.

Schritt 1: Projekt und DataStage-Service hinzufügen

{: #step1}Sie benötigen ein Projekt, um das Dataset und den DataStage-Ablauf zu speichern.

  1. Wenn Sie über ein bestehendes Projekt verfügen, öffnen Sie es. Wenn kein Projekt vorhanden ist, klicken Sie auf der Homepage auf Projekt erstellen oder auf der Seite Projekte auf Neues Projekt.
  2. Wählen Sie Leeres Projekt erstellen aus.
  3. Fügen Sie in der Anzeige Projekt erstellen einen Namen und optional eine Beschreibung für das Projekt hinzu.
  4. Wählen Sie eine vorhandene Instanz des Objektspeicherservice aus oder erstellen Sie eine neue Instanz.
  5. Klicken Sie auf Erstellen.
  6. Klicken Sie im Navigationsmenü auf Services > Serviceinstanzen.
  7. Klicken Sie auf Service hinzufügen und wählen Sie Datastage aus.
  8. Klicken Sie auf Erstellen. Der bereitgestellte Service wird auf der Seite Serviceinstanzen angezeigt.

Weitere Informationen sowie ein Video finden Sie unter Projekt erstellen.

Schritt 2: Dataset zu Ihrem Projekt hinzufügen

{: #step2} Das in diesem Lernprogramm verwendete Dataset ist in der Gallery verfügbar.

  1. Greifen Sie in der Gallery auf Kundendataset zu.
  2. Klicken Sie auf Zu Projekt hinzufügen.
  3. Wählen Sie das Projekt in der Liste aus und klicken Sie dann auf Hinzufügen.
  4. Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.

Weitere Informationen zum Hinzufügen von Datenassets aus der Gallery zu Ihrem Projekt finden Sie unter Daten in ein Notebook laden und darauf zugreifen.

Schritt 3: DataStage-Ablauf erstellen

{: #step3} Der DataStage-Ablauf enthält vier Knoten: das ursprüngliche Datenasset, einen Filterknoten, einen Sortierknoten und das transformierte Datenasset.

  1. Klicken Sie auf Zu Projekt hinzufügen > Datastage-Ablauf.
  2. Geben Sie einen Namen und eine Beschreibung an und klicken Sie anschließend auf Erstellen.
  3. Klicken Sie auf Connectors und ziehen Sie den Knoten Asset-Browser dann in den Erstellungsbereich.
  4. Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen.
  5. Erweitern Sie in der Knotenpalette den Abschnitt Phasen und ziehen Sie den Knoten Filter in den Erstellungsbereich.
  6. Um die Knoten miteinander zu verknüpfen, klicken Sie auf den blauen Pfeil auf dem Knoten Customers.csv_1 und ziehen Sie ihn auf den Knoten Filter.
  7. Ziehen Sie im Abschnitt Phasen den Knoten Sortieren in den Erstellungsbereich.
  8. Verbinden Sie den Knoten Filter mit dem Knoten Sortieren.
  9. Erweitern Sie den Abschnitt Connectors und ziehen Sie den Knoten Asset-Browser in den Erstellungsbereich.
  10. Wählen Sie Datenasset > customers.csv aus und klicken Sie auf Hinzufügen. Sie werden den Dateinamen später ändern, sodass Sie die Datei 'customer.csv' nicht überschreiben.
  11. Verbinden Sie den Knoten Sortieren mit dem Knoten Customers.csv_2.

Schritt 4: Knoten bearbeiten

{: #step4}Bearbeiten Sie jetzt die Eigenschaften für jeden Knoten im Erstellungsbereich.

  1. Bearbeiten Sie den ersten Knoten des Typs 'Asset-Browser'.
    1. Klicken Sie doppelt auf den ersten Knoten Customer.csv_1.
    2. Benennen Sie im Fenster Eigenschaften auf der rechten Seite den Text customers.csv_1 in Customer Table um, damit der Assetknoten einen neuen Namen erhält.
    3. Klicken Sie auf die Registerkarte Ausgabe.
    4. Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
    5. Klicken Sie für die Spalte YTD_SALES auf VARCHAR und wählen Sie DECIMAL aus, um den Datentyp der Spalte YTD_SALES zu ändern.
    6. Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
    7. Klicken Sie auf Speichern, um die Änderungen am Knoten Kundentabelle zu speichern.
  2. Bearbeiten Sie den Filterknoten:
    1. Klicken Sie doppelt auf den Knoten Filter.
    2. Benennen Sie in der Anzeige Eigenschaften den Text Filter_1 in Filter YTD Sales um, damit der Name des Filterknotens geändert wird.
    3. Erweitern Sie den Abschnitt Eigenschaften. Klicken Sie unter Prädikate auf Bearbeiten.
      1. Klicken Sie auf Where-Klausel hinzufügen.
      2. Geben Sie in der Spalte Where-Klausel YTD_SALES > 1000 ein.
      3. Klicken Sie auf Anwenden und zurückkehren.
    4. Klicken Sie auf die Registerkarte Ausgabe.
    5. Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
    6. Wählen Sie alle Spalten aus und wählen Sie die folgenden Spalten ab, die für dieses Lernprogramm beibehalten werden sollen.
      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    7. Klicken Sie auf das Papierkorbsymbol, um die verbleibenden ausgewählten Spalten zu löschen.
    8. Benennen Sie die Spalte CUSTNAME in CUSTOMERNAME um. Diese Änderung wird an die Knoten weitergegeben, die auf den Knoten Filter folgen.
    9. Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
    10. Klicken Sie auf Speichern, um die Änderungen am Knoten Filter zu speichern.
  3. Bearbeiten Sie den Knoten 'Sortieren':
    1. Klicken Sie doppelt auf den Knoten Sortieren.
    2. Benennen Sie in der Anzeige Eigenschaften den Text Sort_1 in Sort YTD Sales um, damit Name des Knotens 'Sortieren' geändert wird.
    3. Erweitern Sie den Abschnitt Eigenschaften.
    4. Klicken Sie unter Sortierungsschlüssel auf Bearbeiten.
    5. Klicken Sie auf Schlüssel hinzufügen.
    6. Wählen Sie in der Dropdown-Liste Schlüssel die Option YTD_SALES aus.
    7. Wählen Sie die Sortierreihenfolge Absteigend aus.
    8. Klicken Sie auf Anwenden, um zur Liste der Sortierschlüssel zurückzukehren.
    9. Klicken Sie auf Anwenden und zurückkehren, um zur Eigenschaftenanzeige zurückzukehren.
    10. Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um zu überprüfen, ob die Änderung am Namen der CUSTOMERNAME-Spalte vom Knoten Filter nach unten weitergegeben wurde.
    11. Klicken Sie auf die Registerkarte Ausgabe und erweitern Sie den Abschnitt Spalten, um zu überprüfen, ob die Änderung am Namen der CUSTOMERNAME-Spalte vom Knoten Filter nach unten weitergegeben wurde.
    12. Klicken Sie auf Speichern, um die Änderungen am Knoten Sortieren zu speichern.
  4. Bearbeiten Sie den letzten Knoten des Typs 'Browser-Asset':
    1. Klicken Sie doppelt auf den letzten Knoten Customers.csv_2.
    2. Benennen Sie in der Anzeige Eigenschaften den Text Customers.csv_2 in Customer filtered table um, damit der Name des Assetknotens geändert wird.
    3. Erweitern Sie den Abschnitt Eigenschaften und wählen Sie das Kontrollkästchen Datenasset erstellen aus.
    4. Geben Sie im Feld Name des Datenassets Customers filtered ein und klicken Sie auf Speichern.
    5. Klicken Sie auf die Registerkarte Eingabe und erweitern Sie den Abschnitt Spalten, um zu überprüfen, ob die Änderung am Namen der CUSTOMERNAME-Spalte vom Knoten Filter nach unten weitergegeben wurde.
    6. Klicken Sie auf Speichern, um die Änderungen am Knoten Customer_filtered zu speichern.

Schritt 5: DataStage-Ablauf ausführen und Asset anzeigen

{: #step5}Nach Ausführung des Ablaufs können Sie das transformierte Asset im Projekt anzeigen.

  1. Klicken Sie auf Speichern.
  2. Klicken Sie auf Kompilieren.
  3. Klicken Sie auf Ausführen.
  4. (Optional) Klicken Sie auf den Link Protokoll, um die Ausführungsdetails anzuzeigen.
  5. Kehren Sie zu Ihrem Projekt zurück und klicken Sie auf die Registerkarte Assets.
  6. Zeigen Sie das Asset Gefilterte Kunden an. Sie können sehen, dass die Daten ordnungsgemäß gefiltert und sortiert wurden.

Nächste Schritte

Die Daten können nun verwendet werden. Beispielsweise können Sie oder andere Benutzer eine der folgenden Tasks ausführen:

Zusätzliche Ressourcen

Übergeordnetes Thema: Erste Schritte beim Vorbereiten von Daten