Schnelleinstieg: DataStage zum Laden von Unternehmensdaten in Snowflake verwenden
DataStage ist ein modernisiertes Datenintegrationstool, mit dem Benutzer vertrauenswürdige Datenpipelines erstellen, Daten in verteilten Umgebungen koordinieren und Daten zwischen Cloudquellen und Data-Warehouses verschieben und transformieren können. Es stellt unter anderem einen Snowflake-Connector zum Schreiben, Lesen und Laden von Daten in Snowflake und zum Integrieren in den ETL-Jobentwurf bereit. Dieses Lernprogramm für den Schnelleinstieg veranschaulicht, wie Unternehmensdaten über DataStageschnell und effizient in Snowflake geladen werden.
- Erforderliche Services
- DataStage
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Task 1: Snowflake-Data-Warehouse erstellen
- Aufgabe 2. Beispielprojekt erstellen und DataStage -Service bereitstellen.
- Task 3: Verbindung zum Snowflake-Data-Warehouse herstellen
- Task 4: DataStage -Ablauf erstellen
- Aufgabe 5: DataStage -Ablauf entwerfen
- Task 6: DataStage -Ablauf ausführen
- Aufgabe 7: Datenasset im Snowflake-Data-Warehouse anzeigen
Für dieses Lernprogramm benötigen Sie ungefähr 20 Minuten.
Vorschau des Lernprogramms anzeigen
In diesem Video wird gezeigt, wie ein einfacher DataStage-Ablauf erstellt wird.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im Cloud Pak for Data Community Diskussionsforum finden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Voraussetzungen einrichten
Registrieren Sie sich für ein Snowflake-Testkonto
Eine Vorschau zu dieser Aufgabe sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:05 starten.
Gehen Sie auf https://www.snowflake.com/
Klicken Sie auf KOSTENLOS starten.
Füllen Sie das Anmeldeformular aus und klicken Sie auf Weiter.
Führen Sie auf der Seite START YOUR 30-DAY FREE TRIAL die folgenden Schritte aus:
Wählen Sie eine Snowflake Edition aus.
Wählen Sie einen Cloud-Provider aus.
Klicken Sie auf GET STARTED.
Überspringen Sie die Fragen, bis die Nachricht Danke für die Registrierung mit Snowflake angezeigt wird.
Greifen Sie auf Ihr E-Mail-Konto zu, öffnen Sie die E-Mail von Snowflake Computingund klicken Sie auf Zum Aktivieren klicken.
Geben Sie einen Benutzernamen und ein Kennwort an und klicken Sie auf Erste Schritte.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das Snowflake-Dashboard:
Für die DataStage -Testversion in Cloud Pak for Data as a Service registrieren
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 00:36 an.
Sie müssen sich für Cloud Pak for Data as a Service registrieren und den DataStage -Service bereitstellen. Rufen Sie die DataStage Testseite auf. Über diesen Link werden die folgenden Services bereitgestellt:
- DataStage
- Cloud Object Storage
Mit vorhandener IBMid
Wenn Sie bereits über eine IBMidverfügen, sehen Sie sich dieses kurze Video an.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Mit neuer IBMid
Wenn Sie noch keine IBMidhaben, sehen Sie sich dieses kurze Video an.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Homepage von Cloud Pak for Data :
Weitere Informationen zu Bereitstellungsservices finden Sie unter IBM Cloud -Services erstellen und verwalten.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die erforderlichen bereitgestellten Serviceinstanzen. Sie können sich jetzt für die Snowflake-Testversion anmelden.
Aufgabe 1: Snowflake-Data-Warehouse erstellen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 00:51 an.
Ihr Ziel ist die Verwendung von DataStage zum Laden von Daten in Ihr Snowflake-Konto. Dazu benötigen Sie ein Data-Warehouse in Ihrem Snowflake-Konto. Führen Sie die folgenden Schritte aus, um ein Data-Warehouse in Ihrem Snowflake-Konto zu erstellen:
Melden Sie sich bei Ihrem Snowflake-Testkontoan.
Klicken Sie im Navigationsfenster auf Verwaltung > Warehouses.
Klicken Sie auf + Warehouse.
Geben Sie als Namen Folgendes ein:
DATASTAGEDATA
Akzeptieren Sie die Standardwerte für die übrigen Felder und klicken auf Warehouse erstellen.
Klicken Sie im Navigationsfenster auf Daten.
Klicken Sie auf der Seite Datenbanken auf + Datenbank.
Geben Sie als Namen
DATASTAGEDB
ein und klicken Sie auf Erstellen.
Klicken Sie auf die neu erstellte Datenbank DATASTAGEDB in der Liste und anschließend auf + Schema.
Geben Sie für den Namen des Schemas Folgendes ein:
MORTGAGE
.Klicken Sie auf Erstellen.
Wählen Sie in der Liste der Datenbanken DATASTAGEDB > MORTGAGEaus.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Datenbank DATASTAGEDB in Snowflake. Sie können jetzt das Beispielprojekt in Cloud Pak for Data für die Verbindungsinformationen und den DataStage -Ablauf erstellen.
Aufgabe 2: DataStage -Projekt erstellen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:46 an.
Sie benötigen ein Projekt zum Speichern der Verbindungen zu den externen Datenquellen und zum DataStage -Ablauf. Gehen Sie wie folgt vor, um das Beispielprojekt zu erstellen:
Rufen Sie das Beispielprojekt zur Datenintegration in der Ressourcendrehscheibe auf.
Klicken Sie auf Projekt erstellen.
Wenn Sie aufgefordert werden, das Projekt einer Cloud Object Storage-Instanz zuzuordnen, wählen Sie in der Liste eine Cloud Object Storage-Instanz aus.
Klicken Sie auf Erstellen.
Warten Sie, bis der Projektimport abgeschlossen ist, und klicken Sie dann auf Neues Projekt anzeigen.
Klicken Sie auf die Registerkarte Assets , um zu überprüfen, ob das Projekt und die Assets erfolgreich erstellt wurden.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das Beispielprojekt. Jetzt können Sie die Verbindung zu Snowflake erstellen.
Task 3: Verbindung zu Ihrem Snowflake-Data-Warehouse erstellen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 02:17 an.
Sie müssen die Verbindungsinformationen zu Ihrem Projekt hinzufügen, damit Sie in Ihrem DataStage -Ablauf auf das Snowflake-Data-Warehouse zugreifen können. Gehen Sie wie folgt vor, um ein Verbindungsasset in Ihrem Projekt zu erstellen:
Klicken Sie auf der Registerkarte Assets auf Neues Asset > Verbindung zu einer Datenquelle herstellen.
Suche nach Schneeflocke im Konnektoren finden Suchfeld.
Wähle aus Schneeflocke Verbindungstyp, und klicken Sie auf Nächste .
Geben Sie auf der Seite Verbindung erstellen: Snowflake
Snowflake
als Verbindungsnamen ein.Füllen Sie für Verbindungsdetailsdie folgenden Felder aus, indem Sie die Informationen aus dem soeben erstellten Snowflake-Konto verwenden:
Kontoname: Ihr Kontoname ist eine Kombination aus Ihrer Konto-ID, Ihrer Region und Ihrem Cloud-Provider. Sie finden diese Informationen in der URL, wenn Sie bei Ihrem Snowflake-Konto angemeldet sind.
Klicken Sie auf Ihren Benutzernamen, um die Menüoptionen zu sehen.
Bewegen Sie den Mauszeiger über Ihr Konto.
Bewegen Sie den Mauszeiger im Kontomenü auf Ihren Kontolink.
Klicken Sie auf das Symbol Konto-URL kopieren, wie in der folgenden Abbildung zu sehen:
Datenbank: Typ
DATASTAGEDB
Rolle: Typ
ACCOUNTADMIN
Lager: Typ
DATASTAGEDATA
Benutzername: Geben Sie Ihren Benutzernamen für das Snowflake-Konto ein
Kennwort: Geben Sie Ihr Kennwort für das Snowflake-Konto ein
Klicken Sie auf Verbindung testen , um die Verbindung zu Ihrem Snowflake-Konto zu testen.
Wenn der Test erfolgreich ist, klicken Sie auf Create. Wenn Sie aufgefordert werden, die Verbindung zu erstellen, ohne Position und Souveränität festzulegen, klicken Sie auf Erstellen. Diese Aktion erstellt den Snowflake-Connector, mit dem Sie die Daten aus Db2 Warehouse in Ihr Snowflake-Konto laden können.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die neuen Verbindungsinformationen. Jetzt können Sie den DataStage -Ablauf erstellen.
Task 4: DataStage -Ablauf erstellen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 03:20 an.
Jetzt können Sie ein DataStage -Asset im Projekt erstellen. Führen Sie die folgenden Schritte aus, um den DataStage -Ablauf zu erstellen:
Von dem Vermögenswerte auf Neues Asset > Daten transformieren und integrieren .
Geben Sie für NameFolgendes ein:
Load Db2 data to Snowflake
Klicken Sie auf Erstellen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den leeren DataStage -Erstellungsbereich. Jetzt können Sie den DataStage -Ablauf entwerfen.
Aufgabe 5: DataStage -Ablauf entwerfen
Der DataStage -Ablauf enthält zwei Connectorknoten: den Db2 Warehouse -Connector, der auf das Quellendatenasset verweist, und den Snowflake-Connector, der auf das Zieldatenasset zeigt, sowie mehrere andere Knoten, um Datenassets zu verknüpfen und zu filtern. Gehen Sie wie folgt vor, um die Knoten zum Erstellungsbereich hinzuzufügen:
Fügen Sie die beiden Connectorknoten hinzu.
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 03:36 an.
Führen Sie die folgenden Schritte aus, um die beiden Connectorknoten zum Erstellungsbereich hinzuzufügen:
Hinzufügen des Knotens Quellverbinder
Erweitern Sie in der Knotenpalette den Abschnitt Connectors.
Ziehen Sie den Connector Assetbrowser und legen Sie ihn an einer beliebigen Stelle im leeren Erstellungsbereich ab.
Wenn Sie den Connector Assetbrowser im Erstellungsbereich ablegen, werden Sie aufgefordert, das Asset auszuwählen.
Wählen Sie zum Suchen des Assets Verbindung > Data Fabric Test- Db2 Warehouse > BANKING > MORTGAGE_APPLICATIONaus.
Tipp: Um die Verbindung und das Schema zu erweitern, klicken Sie auf den Verbindungs-oder Schemanamen anstelle des Kontrollkästchens.Klicken Sie auf Hinzufügen , um die Db2 Warehouse -Datenquelle im Erstellungsbereich DataStage abzulegen.
Fügen Sie den Knoten "Zielkonnektor" hinzu
Erweitern Sie in der Knotenpaletteden Abschnitt Connectors .
Ziehen Sie den Connector Assetbrowser und legen Sie ihn im Erstellungsbereich ab, damit er als zweiter Knoten positioniert wird.
Wählen Sie zum Suchen des Assets Verbindung > Snowflake > MORTGAGEaus.
Tipp: Klicken Sie auf das Kontrollkästchen, um den Schemanamen MORTGAGE auszuwählen.Klicken Sie auf Hinzufügen , um die Snowflake-Verbindung im Erstellungsbereich DataStage abzulegen.
Um die Knoten miteinander zu verknüpfen, bewegen Sie den Mauszeiger über den Knoten Mortgage_Application_1 , bis ein Pfeil angezeigt wird. Ziehen Sie den Pfeil auf die Snowflake-Verbindung, um die zwei Knoten zu verbinden.
Konfigurieren Sie die Quell- und Zielknoten
Doppelklicken Sie auf den Knoten MORTGAGE_APPLICATION , um seine Einstellungen anzuzeigen.
Klicken Sie auf die Registerkarte Ausgabe.
Wählen Sie die Option Spaltenweitergabe zur Laufzeit aus. DataStage ist in Bezug auf Metadaten flexibel. Es kann Situationen verarbeiten, in denen die Metadaten nicht vollständig definiert sind. In diesem Fall wählen Sie Spaltenweitergabe zur Laufzeit aus, um sicherzustellen, dass der DataStage -Job zusätzliche Spalten übernimmt, die nicht in den Metadaten definiert sind, wenn der Job tatsächlich ausgeführt wird, und sie über den Rest des Jobs weitergibt. Mit dieser Funktion kann Ihr Flow-Design flexibel für Schemaabweichungen sein.
Klicken Sie auf Speichern.
Da Sie Daten aus Db2 Warehouse in Snowflake einlesen, wird der Db2 Warehouse -Connector zuerst im Ablauf positioniert. Ihr Ziel ist es, die Db2 Warehouse -Daten in Snowflake zu laden. Als Nächstes fügen Sie einen Snowflake-Connector hinzu, der die Daten aus dem Connector Db2 Warehouse liest. Somit wird der Snowflake Connector als zweiter in der Strömung positioniert.
Doppelklicken Sie auf den Connector MORTGAGE_DATA , um seine Einstellungen anzuzeigen.
Ändern Sie den Knotennamen in
Snowflake_mortgage_data
.Klicken Sie im Seitenbereich für Einstellungen auf die Registerkarte Eingabe .
Erweitern Sie den Abschnitt Verwendung .
Wählen Sie für Schreibmodusdie Option Einfügen.
Fügen Sie für Tabellenname
APPLICATION
nach dem Schemanamen hinzu, sodass der vollständige Tabellenname wie folgt lautet:MORTGAGE.APPLICATION
.Wählen Sie für die Tabellenaktion Erstellenaus. Diese Einstellung erstellt die Tabelle in der angegebenen Datenbank und dem angegebenen Schema in Snowflake und lädt dann die Unternehmensdaten in diese Tabelle.
Akzeptieren Sie die Standardwerte für alle anderen Felder im Abschnitt Aktionen .
Klicken Sie auf Speichern , um die Änderungen zu aktualisieren, und kehren Sie zum DataStage -Ablauf zurück.
Knoten zum Verknüpfen und Filtern von Daten hinzufügen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 05:40 an.
Jetzt haben Sie einen DataStage -Basisablauf, um die Daten in Snowflake zu laden. Führen Sie die folgenden Schritte aus, um mehrere Knoten zum Verknüpfen und Filtern von Daten hinzuzufügen:
Einen weiteren Asset-Verbindungsknoten hinzufügen
Erweitern Sie in der Knotenpalette den Abschnitt Connectors.
Ziehen Sie den Connector Assetbrowser in den Erstellungsbereich in der Nähe des Knotens MORTGAGE_APPLICATION.
Wenn Sie den Connector Assetbrowser im Erstellungsbereich ablegen, werden Sie aufgefordert, das Asset auszuwählen.
Wählen Sie zum Suchen des Assets Verbindung > Data Fabric Trial- Db2 Warehouse > BANKING > MORTGAGE_APPLICANTaus.
Tipp: Um die Verbindung und das Schema zu erweitern, klicken Sie auf den Verbindungs-oder Schemanamen anstelle des Kontrollkästchens.Klicken Sie auf Hinzufügen , um die Db2 Warehouse -Datenquelle im Erstellungsbereich DataStage abzulegen.
Hinzufügen des Knotens Join stage
Erweitern Sie in der Knotenpaletteden Abschnitt Stufen .
Ziehen Sie in der Knotenpalettedie Stage Join in den Erstellungsbereich und legen Sie den Knoten auf der Linklinie zwischen den Knoten MORTGAGE_APPLICATION und Snowflake_mortgage_data ab. Diese Aktion verwaltet Links vom MORTGAGE_APPLICATION -Knoten zum JOIN -Knoten zum Snowflake_mortgage_data -Knoten.
Bewegen Sie den Mauszeiger über den Connector MORTGAGE_APPLICANT , um den Pfeil anzuzeigen. Verbinden Sie den Pfeil mit der Join-Phase.
Doppelklicken Sie auf den Knoten MORTGAGE_APPLICANT , um seine Einstellungen anzuzeigen.
Klicken Sie auf die Registerkarte Ausgabe.
Wählen Sie die Option Spaltenweitergabe zur Laufzeit aus. Wie bereits erwähnt, berücksichtigt diese Option die Schemaabweichung.
Klicken Sie auf Speichern.
Klicken Sie doppelt auf den Knoten Join_1, um die Einstellungen zu bearbeiten.
Erweitern Sie den Abschnitt Eigenschaften.
Klicken Sie auf Schlüssel hinzufügen.
Klicken Sie erneut auf Schlüssel hinzufügen.
Wählen Sie ID aus der Liste der möglichen Schlüssel aus.
Klicken Sie auf Anwenden.
Klicken Sie auf Anwenden und zurückkehren, um zu den Einstellungen für den Knoten Join_1 zurückzukehren.
Ändern Sie den Knotennamen Join_1 in
Join_on_ID
.Klicken Sie auf die Registerkarte Ausgabe.
Wählen Sie die Option Spaltenweitergabe zur Laufzeit aus, um die Schemadrift zu berücksichtigen.
Klicken Sie auf Speichern, um die die Einstellungen für den Knoten Join_on_ID zu speichern.
Hinzufügen des Knotens Filterstufe
Ziehen Sie in der Knotenpaletteim Abschnitt Stufen den Knoten Filter in den Erstellungsbereich und legen Sie den Knoten auf der Linklinie zwischen den Knoten Join_on_ID und Snowflake_mortgage_data ab.
Doppelklicken Sie auf den Knoten Filter_1 , um die Einstellungen zu bearbeiten.
Erweitern Sie den Abschnitt Eigenschaften.
Klicken Sie unter Prädikate auf Bearbeiten.
Klicken Sie in der Spalte " Where-Klausel" auf das Bearbeitungssymbol "
und geben Sie "
STATE_CODE='CA'
ein. Diese Klausel filtert Hypothekenanträge nur für kalifornische Antragsteller.Klicken Sie auf Anwenden und zurückkehren.
Klicken Sie auf die Registerkarte Ausgabe.
- Wählen Sie die Option Spaltenweitergabe zur Laufzeit aus, um die Schemadrift zu berücksichtigen.
Klicken Sie auf Speichern , um die Einstellungen des Knotens Filter zu speichern.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den abgeschlossenen DataStage -Ablauf. Jetzt können Sie den Job DataStage ausführen.
Task 6: Job DataStage ausführen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 07:23 an.
Jetzt können Sie den DataStage -Job kompilieren und ausführen, um die Hypothekenanwendungsdaten aus Db2 Warehouse in Snowflake zu laden. Führen Sie die folgenden Schritte aus, um den Job DataStage auszuführen:
Klicken Sie in der Symbolleiste auf Kompilieren. Diese Aktion validiert Ihren DataStage -Ablauf.
Wenn der Ablauf erfolgreich kompiliert wurde, klicken Sie in der Symbolleiste auf Ausführen , um den DataStage -Job zu starten. Die Ausführung kann einige Minuten dauern.
Wenn die Ausführung abgeschlossen ist, wird die Nachricht Ausführung erfolgreich mit Warnungenangezeigt.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die erfolgreiche Ausführung. Nachdem der DataStage -Job erfolgreich abgeschlossen wurde, können Sie die neue Tabelle in Snowflake anzeigen.
Aufgabe 7: Datenasset im Snowflake-Data-Warehouse anzeigen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 07:31 an.
Um zu überprüfen, ob die Daten ordnungsgemäß in Snowflake geladen wurden, können Sie zum Snowflake-Dashboard zurückkehren.
Navigieren Sie zu Daten > Datenbanken.
Erweitern Sie DATASTAGEDB > MORTGAGE > TABLES.
Wählen Sie die Tabelle APPLICATION aus.
Klicken Sie unter dem Tabellennamen auf die Registerkarte Datenvorschau .
Wählen Sie das Warehouse DATASTAGEDATA aus.
Klicken Sie auf Vorschau , um eine Vorschau der aus DataStageimportierten Hypothekenanwendung anzuzeigen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die geladene Tabelle in Snowflake.
Sie haben mithilfe von DataStageerfolgreich Unternehmensdaten aus Db2 Warehouse in Snowflake geladen.
Nächste Schritte
Probieren Sie andere Lernprogramme aus: