Lernprogramm zur Multi-Cloud-Datenintegration: Daten integrieren

In diesem Lernprogramm erfahren Sie, wie Sie Daten, die in drei externen Datenquellen gespeichert sind, mit dem Anwendungsfall "Multicloud Data Integration" der Testversion von Data Fabric transformieren können. Ihr Ziel ist es, Daten mit DataStage zu transformieren und diese transformierten Daten anschließend in einer einzigen Ausgabedatei bereitzustellen.

In diesem Lernprogramm muss die Golden Bank eine neue Verordnung einhalten, in der sie keine Kredite an unterqualifizierte Darlehensantragsteller vergeben kann. Als Datenentwickler bei der Golden Bank verwenden Sie derzeit DataStage, um die anonymisierten Hypothekenanträge mit den personenbezogenen Daten der Hypothekenantragsteller zusammenzufassen. Ihre Kreditgeber entscheiden mithilfe dieser Informationen, ob sie Hypothekenanträge genehmigen oder ablehnen sollten. Ihre Führung hat einige Risikoanalysten hinzugefügt, die auf täglicher Basis berechnen, welcher Zinssatz dem Kreditnehmer in jedem Scorebereich angeboten werden soll. Sie müssen diese Informationen in das Spreadsheet integrieren, das Sie gemeinsam mit den Kreditgebern nutzen und das Informationen zur Kreditbewertung für jeden Antragsteller, die Gesamtschulden des Antragstellers und eine Referenztabelle zum Zinssatz enthält. Anschließend laden Sie Ihre Daten in eine CSV-Zielausgabedatei.

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

  1. Einen vorhandenen DataStage-Ablauf ausführen.
  2. Den DataStage-Ablauf wie folgt bearbeiten:
    1. PostgreSQL-Daten hinzufügen.
    2. Eine weitere Join-Phase hinzufügen.
    3. Eine Transformer-Phase hinzufügen.
    4. MongoDB-Daten hinzufügen.
    5. Eine Lookup-Phase hinzufügen.
  3. Den sequenziellen Dateiknoten bearbeiten und den DataStage-Ablauf ausführen.
  4. Katalog erstellen.
  5. Die Ausgabe anzeigen und in einem Katalog veröffentlichen.

Wenn Sie Hilfe bei diesem Lernprogramm benötigen, können Sie im Diskussionsforum der Cloud Pak for Data-Community Fragen stellen oder eine Antwort finden.

Tipp: Um dieses Lernprogramm optimal zu nutzen, öffnen Sie Cloud Pak for Data as a Service in einer Browserregisterkarte und lassen Sie diese Lernprogrammseite in einer anderen Browserregisterkarte geöffnet, damit Sie einfach zwischen den beiden Anwendungen wechseln können.

Vorschau des Lernprogramms anzeigen

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen.

Dieses Video bietet eine visuelle Darstellung als Alternative zu den im Folgenden schriftlich dokumentierten Schritten.

Voraussetzung

Sie müssen sich für Cloud Pak for Data as a Service registrieren und die erforderlichen Services für den Anwendungsfall 'Multicloud Data Integration' bereitstellen.

Sie können sich auf eine der folgenden Arten bei Cloud Pak for Data as a Service anmelden:

Bereitstellung der erforderlichen Services

Führen Sie die folgenden Schritte aus, um die erforderlichen Services zu überprüfen oder bereitzustellen.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 01:09 starten.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Services > Serviceinstanzen aus.
  2. Ermitteln Sie über die Dropdown-Liste Produkt, ob bereits eine DataStage-Serviceinstanz vorhanden ist.
  3. Wenn Sie eine DataStage-Serviceinstanz erstellen müssen, klicken Sie auf Service hinzufügen.
  4. Wählen Sie DataStage aus.
  5. Wählen Sie den Lite-Plan aus.
  6. Klicken Sie auf Erstellen.
  7. Wiederholen Sie diese Schritte, um die folgenden zusätzlichen Services zu überprüfen oder bereitzustellen:
    • Watson Knowledge Catalog
    • Cloud Object Storage

Beispielprojekt erstellen

Wenn Sie das Beispielprojekt für dieses Lernprogramm noch nicht erstellt haben, führen Sie die folgenden Schritte aus:

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 01:44 starten.

  1. Sie können in der Gallery auf das Beispielprojekt für das geführte Lernprogramm zu Multicloud Data Integration zugreifen.
  2. Klicken Sie auf Create Project.
  3. Wenn Sie aufgefordert werden, das Projekt einer Cloud Object Storage-Instanz zuzuordnen, wählen Sie in der Liste eine Cloud Object Storage-Instanz aus.
  4. Klicken Sie auf Erstellen.
  5. Klicken Sie auf Neues Projekt anzeigen, um zu überprüfen, ob das Projekt und die Assets erfolgreich erstellt wurden.

Schritt 1: Vorhandenen DataStage-Ablauf ausführen

Führen Sie die folgenden Schritte aus, um einen DataStage-Ablauf auszuführen, der eine CSV-Datei in dem Projekt erstellt, in der die Datasets für Hypothekenantragsteller und Hypothekenanwendungen verknüpft werden.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:24 starten.

  1. Klicken Sie im Multicloud Data Integration-Projekt auf die Registerkarte Assets, um alle Assets im Projekt anzuzeigen.
  2. Klicken Sie den Ablauf Abläufe > DataStage. Wenn keine DataStage-Abläufe angezeigt werden, kehren Sie zurück zur Anzeige Ihrer Serviceinstanzen und überprüfen Sie, ob Ihre DataStage-Instanz erfolgreich bereitgestellt wurde. Siehe Bereitstellung der erforderlichen Services.
  3. Klicken Sie auf den Ablauf Multicloud Data Integration in der Liste, um ihn zu öffnen. Dieser Ablauf verknüpft die in Db2 Warehouse gespeicherten Tabellen zu den Hypothekenantragstellern und den Hypothekenanwendungen, filtert die Daten mit den Datensätzen aus dem Bundesstaat Kalifornien und erstellt als Ausgabe eine sequenzielle Datei im CSV-Format.
  4. Klicken Sie doppelt auf den Knoten MORTGAGE_APPLICATIONS_1, um die Einstellungen anzuzeigen.
    1. Erweitern Sie Abschnitt "Eigenschaften".
    2. Blättern Sie abwärts und klicken Sie auf Datenvorschau. Dieses Dataset enthält Informationen zur Erfassung einer Hypothekenanwendung.
    3. Klicken Sie auf Schließen.
  5. Klicken Sie doppelt auf den Knoten MORTGAGE_APPLICATIONS_1, um die Einstellungen anzuzeigen.
    1. Erweitern Sie Abschnitt "Eigenschaften".
    2. Blättern Sie abwärts und klicken Sie auf Datenvorschau. Dieses Dataset enthält Informationen zu Hypothekenantragstellern, die einen Kredit beantragt haben.
    3. Klicken Sie auf Schließen.
  6. Klicken Sie auf Kompilieren und anschließend auf Ausführen. Alternativ können Sie auf Ausführen klicken, um den DataStage-Ablauf zu kompilieren und auszuführen.
  7. Klicken Sie in der Symbolleiste auf Protokolle, um den Fortschritt des Ablaufs zu überwachen. Die Ausführung kann ungefähr eine Minute dauern.
  8. Wenn die Ausführung erfolgreich abgeschlossen wurde, klicken Sie im Navigationspfad auf Multicloud Data Integration, um zum Projekt zurückzukehren.
  9. Klicken Sie auf der Registerkarte Assets auf Daten > Datenasset.
  10. Öffnen Sie die Datei MORTGAGE_INTEREST_RATES.CSV. Sie können sehen, dass diese Datei die Spalten aus den Datasets für die Hypothekenantragsteller und Hypothekenanwendungen enthält, die die ID für den Joinschlüssel verwenden.

Schritt 2: DataStage-Ablauf bearbeiten

Führen Sie die folgenden Schritte aus, um einen DataStage-Ablauf zu bearbeiten und die Einstellungen des Join-Knotens zu ändern.

Video ansehen Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 04:16 starten.

  1. Klicken Sie den Ablauf Abläufe > DataStage.
  2. Öffnen Sie den Ablauf Multicloud Data Integration.
  3. Klicken Sie doppelt auf den Knoten Join_on_ID, um die Einstellungen zu bearbeiten.
  4. Klicken Sie auf die Registerkarte Ausgabe und erweitern Sie den Abschnitt Spalten, um eine Liste der Spalten im verknüpften Dataset anzuzeigen.
  5. Klicken Sie auf Bearbeiten.
  6. Für den Namen der Spalte EMAIL_ADDRESS wählen Sie Schlüssel aus.
  7. Klicken Sie auf Anwenden und zurückkehren, um zu den Einstellungen des Knotens Join_on_ID zurückzukehren.
  8. Klicken Sie auf Speichern, um die die Einstellungen für den Knoten Join_on_ID zu speichern.

Schritt 3: PostgreSQL-Daten hinzufügen

Führen Sie die folgenden Schritte aus, um die in einer PostgreSQL-Datenbank gespeicherten Scoredaten zum DataStage-Ablauf hinzuzufügen.

Video ansehen Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 04:57 starten.

  1. Erweitern Sie in der Knotenpalette den Abschnitt Connectors.
  2. Ziehen Sie den Connector Asset-Browser in den Erstellungsbereich neben dem Knoten MORTGAGE_APPLICANTS_1.
  3. Wählen Sie Verbindung > Data Fabric Trial - Databases for PostgreSQL > BANKING > CREDIT_SCORE aus, um das Asset zu suchen.
  4. Klicken Sie auf das Symbol mit dem Auge, um eine Vorschau der Kreditbewertung für jeden Antragsteller anzuzeigen.
  5. Klicken Sie auf Hinzufügen.

Schritt 4: Eine weitere Join-Phase hinzufügen

Führen Sie die folgenden Schritte aus, um eine weitere Join-Phase hinzuzufügen, in der die gefilterten Daten der Hypothekenanwendung bzw. des Hypothekenantragstellers mit den Daten zur Kreditbewertung im DataStage-Ablauf verknüpft werden.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 05:28 starten.

  1. Erweitern Sie in der Knotenpalette den Abschnitt Phasen.
  2. Ziehen Sie die Join-Phase in den Erstellungsbereich und legen Sie den Knoten auf Link_4 zwischen den Knoten Filter_State_Code und Sequential_file_1 ab.
  3. Bewegen Sie den Mauszeiger über den Connector CREDIT_SCORE_1, um den Pfeil anzuzeigen. Verbinden Sie den Pfeil mit der Join-Phase.
  4. Klicken Sie doppelt auf den Knoten CREDIT_SCORE_1, um die Einstellungen zu bearbeiten.
    1. Klicken Sie auf die Registerkarte Ausgabe und erweitern Sie den Abschnitt Spalten, um eine Liste der Spalten im verknüpften Dataset anzuzeigen.
    2. Klicken Sie auf Bearbeiten.
    3. Für die Namen der Spalten EMAIL_ADDRESS und CREDIT_SCORE wählen Sie Schlüssel aus.
    4. Klicken Sie auf Anwenden und zurückkehren, um zu den Einstellungen des Knotens CREDIT_SCORE_1 zurückzukehren.
    5. Klicken Sie auf Speichern, um die Einstellungen des Knotens CREDIT_SCORE_1 zu speichern.
  5. Klicken Sie doppelt auf den Knoten Join_1, um die Einstellungen zu bearbeiten.
    1. Erweitern Sie den Abschnitt Eigenschaften.
    2. Klicken Sie auf Schlüssel hinzufügen.
      1. Klicken Sie erneut auf Schlüssel hinzufügen.
      2. Wählen Sie in der Dropdown-Liste EMAIL_ADDRESSE aus.
      3. Klicken Sie auf Anwenden.
    3. Klicken Sie auf Anwenden und zurückkehren, um zu den Einstellungen für den Knoten Join_1 zurückzukehren.
    4. Ändern Sie den Knotennamen Join_1 in Join_on_email.
    5. Klicken Sie auf Speichern, um die Einstellungen für den Knoten Join_1 zu speichern.

Schritt 5: Transformer-Phase hinzufügen

Führen Sie die folgenden Schritte aus, um eine Transformer-Phase hinzuzufügen, die eine neue Spalte erstellt, indem die Spalten LOAN_AMOUNT und CREDITCARD_DEBT addiert werden.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 06:42 starten.

  1. Ziehen Sie die Transformator-Phase in den Erstellungsbereich und legen Sie den Knoten auf Link_5 zwischen den Knoten Join_on_email und Sequential_file_1 ab.
  2. Klicken Sie doppelt auf den Knoten Transformator, um die Einstellungen zu bearbeiten.
    1. Klicken Sie auf die Registerkarte Ausgabe.
      1. Klicken Sie auf Spalte hinzufügen.
      2. Blättern Sie zum Ende der Liste mit den Spalten, um die neue Spalte anzuzeigen.
      3. Benennen Sie die Spalte TOTAL_DEBT.
      4. Klicken Sie auf das Symbol mit dem Stift in der Ableitungsspalte der Zeile.
      5. Klicken Sie auf das Symbol mit dem Rechner, um das Ausdruckserstellungsprogramm zu öffnen.
      6. Suchen Sie nach LOAN_AMOUNT und klicken Sie doppelt auf den Spaltennamen, um ihn dem Ausdruck hinzuzufügen.
      7. Geben Sie ein Pluszeichen + ein.
      8. Suchen Sie nach CREDITCARD_DEBT und klicken Sie doppelt auf den Spaltennamen, um ihn dem Ausdruck hinzuzufügen.
      9. Stellen Sie sicher, dass der letzte Ausdruck Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBT ist.
      10. Klicken Sie auf Anwenden und zurückkehren, um zur Seite Transformator zurückzukehren.
    2. Klicken Sie auf Speichern und zurückkehren, um zum Erstellungsbereich zurückzukehren.

Schritt 6: MongoDB-Daten hinzufügen

Führen Sie die folgenden Schritte aus, um die Zinssätze in den Ablauf einzuschließen, indem Sie einen neuen Datenasset-Connector zu einer MongoDB-Datenbank hinzufügen.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 07:30 starten.

  1. Erweitern Sie in der Knotenpalette den Abschnitt Connectors.
  2. Ziehen Sie den Connector Asset-Browser in den Erstellungsbereich neben dem Knoten CREDIT_SCORE_1.
  3. Wählen Sie Verbindung > Data Fabric Trial - Mongo DB > DOCUMENT > DS_INTEREST_RATES aus, um das Asset zu suchen.
  4. Klicken Sie auf das Symbol mit dem Auge, um eine Vorschau der Zinssätze für jeden Kreditbewertungsbereich anzuzeigen. Sie verwenden die Werte in den Spalten STARTING_LIMIT und ENDING_LIMIT, um den entsprechenden Zinssatz auf Basis der Kreditbewertung des Antragstellers zu suchen. Da die ID-Spalte nicht benötigt wird, löschen Sie sie im nächsten Schritt.
  5. Klicken Sie auf Hinzufügen.

Schritt 7: Lookup-Phase hinzufügen

Basierend auf der Kreditbewertung des jeweiligen Antragstellers möchten Sie den entsprechenden Zinssatz suchen. Führen Sie die folgenden Schritte aus, um eine Lookup-Phase hinzuzufügen und den Bereich für die Start- und Endkreditbewertungslimits für jeden Zinssatz anzugeben.

Video ansehen Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 08:19 starten.

  1. Ziehen Sie die Lookup-Phase in den Erstellungsbereich und legen Sie den Knoten auf Link_7 zwischen den Knoten Transformer_1 und Sequential_file_1 ab.
  2. Verbinden Sie den Connector DS_INTEREST_RATES_1 mit der Phase Lookup_1.
  3. Klicken Sie doppelt auf den Knoten DS_INTEREST_RATES_1, um die Einstellungen zu bearbeiten.
  4. Klicken Sie auf die Registerkarte Ausgabe.
    1. Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
    2. Wählen Sie die Spalte _ID aus.
    3. Klicken Sie auf das Symbol Löschen, um diese nicht erforderliche Spalte zu löschen.
    4. Klicken Sie auf Anwenden und zurückkehren, um zu den Einstellungen des Knotes DS_INTEREST_RATES_1 zurückzukehren.
    5. Klicken Sie auf Speichern, um die Änderungen am Knoten DS_INTEREST_RATES_1 zu speichern.
  5. Klicken Sie doppelt auf den Knoten Lookup_1, um die Einstellungen zu bearbeiten.
  6. Erweitern Sie den Abschnitt Eigenschaften.
    1. Wählen Sie im Feld Bereich auf Spalten anwenden die Option CREDIT_SCORE aus. Die Felder Referenzlinks, Bediener und Bereichsspalte werden angezeigt.
    2. Wählen Sie für Referenzlinks die Option Link_9 aus.
    3. Wählen Sie für den ersten Bediener die Option < aus.
    4. Wählen Sie für die erste Bereichsspalte die Option ENDING_LIMIT aus.
    5. Wählen Sie für den zweiten Bediener die Option > aus.
    6. Wählen Sie für die zweite Bereichsspalte die Option STARTING_LIMIT aus.
  7. Klicken Sie auf die Registerkarte Ausgabe.
    1. Erweitern Sie den Abschnitt Spalten und klicken Sie auf Bearbeiten.
    2. Wählen Sie die Spalten STARTING_LIMIT und ENDING_LIMIT aus.
    3. Klicken Sie auf das Symbol Löschen, um diese nicht erforderlichen Ausgaben zu löschen.
    4. Klicken Sie auf Anwenden und zurückkehren, um zu den Einstellungen des Knotens Lookup_1 zurückzukehren.
    5. Klicken Sie auf Speichern, um die Änderungen am Knoten Lookup_1 zu speichern.

Schritt 8: Den sequenziellen Dateiknoten bearbeiten und den DataStage-Ablauf ausführen

Führen Sie die folgenden Schritte aus, in denen der sequenzielle Dateiknoten bearbeitet wird, um eine endgültige Ausgabedatei als Datenasset im Projekt zu erstellen. Anschließend kompilieren Sie den DataStage-Ablauf und führen ihn aus.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 09:39 starten.

  1. Klicken Sie doppelt auf den Knoten Sequential_file_1, um die Einstellungen zu bearbeiten.
  2. Klicken Sie auf die Registerkarte Eingabe.
  3. Wählen Sie Datenasset erstellen aus.
  4. Geben Sie für Name des Datenassets MORTGAGE_APPLICANTS_INTEREST_RATES.CSV ein.
  5. Erweitern Sie den Abschnitt Eigenschaften.
  6. Geben Sie für Zieldatei MORTGAGE_APPLICANTS_INTEREST_RATES.CSV ein.
  7. Klicken Sie auf Speichern.
  8. Klicken Sie auf Ausführen, um den DataStage-Ablauf zu kompilieren und auszuführen.
  9. Klicken Sie in der Symbolleiste auf Protokolle, um den Fortschritt des Ablaufs zu überwachen.

Schritt 9: Katalog erstellen

Andere Datenentwickler und Geschäftsanalysten der Golden Bank benötigen Zugang zu den Hypothekenzinsen. Mit dem Watson Knowledge Catalog Lite-Plan können Sie nur einen Katalog erstellen. Wenn Sie bereits über einen Katalog verfügen, überspringen Sie diesen Schritt. Andernfalls führen Sie die folgenden Schritte zum Erstellen eines Katalogs aus, in dem Sie den Datensatz mit den Zinssätzen veröffentlichen können.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 10:10 starten.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Kataloge > Alle Kataloge anzeigen aus.
  2. Klicken Sie auf Katalog erstellen.
  3. Geben Sie Mortgage Approval Catalog als Namen ein. Geben Sie den Katalognamen genau so ein, wie er angezeigt wird, ohne anführende oder nachgestellte Leerzeichen. Wenn Sie aufgefordert werden, den Katalog einer Cloud Object Storage-Instanz zuzuordnen, wählen Sie in der Liste eine Cloud Object Storage-Instanz aus.
  4. Akzeptieren Sie die Standardwerte für alle anderen Felder.
  5. Klicken Sie auf Erstellen.

Schritt 10: Ausgabe anzeigen und in einem Katalog veröffentlichen

Führen Sie die folgenden Schritte aus, um die Ausgabedatei im Projekt anzuzeigen und anschließend in einem Katalog zu veröffentlichen.

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 10:40 starten.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Projekte > Alle Projekte anzeigen aus.
  2. Öffnen Sie das Projekt Multicloud Data Integration.
  3. Klicken Sie auf der Registerkarte Assets auf Daten > Datenasset.
  4. Öffnen Sie die Datei MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  5. Blättern Sie nach rechts, um Ihre integrierten Daten mit Zinssätzen am Ende jeder Dateneingabe anzuzeigen.
  6. Klicken Sie im Navigationspfad auf Multicloud Data Integration, um zum Projekt zurückzukehren.
  7. Klicken Sie auf der Registerkarte Assets auf das Überlaufmenü am Ende der Zeile für die Datei MORTGAGE_APPLICANTS_INTEREST_RATES.CSV und wählen Sie Im Katalog veröffentlichen aus.
  8. Wählen Sie den Katalog Mortage Approval Catalog in der Liste aus und klicken Sie auf Veröffentlichen.
  9. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Kataloge > Alle Kataloge anzeigen aus.
  10. Öffnen Sie den Mortgage Approval Catalog.
  11. Suchen Sie nach Mortgage.
  12. Öffnen Sie die Datei MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  13. Klicken Sie auf die Registerkarte Asset, um die Daten anzuzeigen.

Weitere Informationen

Übergeordnetes Thema: Data Fabric-Lernprogramme