0 / 0
Retourner à la version anglaise de la documentation
Démarrage rapide: utilisez DataStage pour charger des données d'entreprise dans Snowflake
Dernière mise à jour : 28 nov. 2024
Démarrage rapide: utilisez DataStage pour charger des données d'entreprise dans Snowflake

DataStage est un outil d'intégration de données modernisé qui permet aux utilisateurs de créer des pipelines de données de confiance, d'orchestrer des données dans des paysages distribués et de déplacer et de transformer des données entre des sources de cloud et des entrepôts de données. Il fournit un connecteur Snowflake, entre autres, pour écrire, lire et charger des données dans Snowflake et les intégrer dans la conception de travail ETL. Ce tutoriel de démarrage rapide montre comment charger des données d'entreprise dans Snowflake rapidement et efficacement via DataStage.

Services requis
DataStage

Dans ce tutoriel, vous exécutez les tâches suivantes :

Ce tutoriel dure environ 20 minutes.

Aperçu du tutoriel

Regarder une vidéo Regardez cette vidéo pour voir comment créer un flux DataStage simple.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.




Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Configuration des prérequis

Inscrivez-vous pour un compte d'essai Snowflake

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:05.

  1. Rendez-vous sur le site https://www.snowflake.com/

  2. Cliquez sur START FOR FREE.

  3. Complétez le formulaire d'inscription et cliquez sur Continuer.

  4. Sur la page COMMENCEZ VOTRE ESSAI GRATUIT DE 30 JOURS , procédez comme suit:

    1. Choisissez une édition Snowflake.

    2. Choisissez un fournisseur de cloud.

    3. Cliquez sur GET STARTED.

  5. Ignorez les questions jusqu'à ce que vous voyez le message Merci de vous être inscrit avec Snowflake .

  6. Accédez à votre compte de messagerie, ouvrez le courrier électronique à partir de Snowflake Computinget cliquez sur CLICK TO ACTIVATE.

  7. Indiquez un nom d'utilisateur et un mot de passe, puis cliquez sur Get started.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le tableau de bord Snowflake:

Tableau de bord Snowflake

Inscrivez-vous à l'offre d'essai DataStage sur Cloud Pak for Data as a Service

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:36.

Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition le service DataStage . Allez sur la page d'évaluation deDataStage. A l'aide de ce lien, les services suivants sont mis à disposition:

  • DataStage
  • Cloud Object Storage

Avec un IBMid existant

Si vous disposez d'un IBMidexistant, regardez cette courte vidéo.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Avec un nouvel IBMid

Si vous ne disposez pas d'un IBMidexistant, regardez cette courte vidéo.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la page d'accueil de Cloud Pak for Data :

Page d'accueil de Cloud Pak for Data

Pour plus d'informations sur la mise à disposition des services, voir Création et gestion des services IBM Cloud.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les instances de service mises à disposition requises. Vous êtes maintenant prêt à vous inscrire à l'essai Snowflake.

Services mis à disposition




Tâche 1: Créer un entrepôt de données Snowflake

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:51.

Votre objectif est d'utiliser DataStage pour charger des données dans votre compte Snowflake. Pour cela, vous avez besoin d'un entrepôt de données dans votre compte Snowflake. Pour créer un entrepôt de données dans votre compte Snowflake, procédez comme suit:

  1. Connectez-vous à votre compte d'essai Snowflake.

  2. Dans le panneau de navigation, cliquez sur Admin > Entrepôts.

    1. Cliquez sur + Warehouse.

    2. Pour le nom, entrez: DATASTAGEDATA

    3. Acceptez les valeurs par défaut pour le reste des zones et cliquez sur Créer un entrepôt.

  3. Dans le panneau de navigation, cliquez sur Données.

    1. Dans la page Bases de données , cliquez sur + Base de données.

    2. Pour le nom, entrez DATASTAGEDBet cliquez sur Créer.

  4. Cliquez sur la nouvelle base de données DATASTAGEDB dans la liste, puis cliquez sur + Schéma.

    1. Pour le nom Schéma , entrez: MORTGAGE

    2. Cliquez sur Créer.

  5. Dans la liste des bases de données, sélectionnez DATASTAGEDB > HYPOTHÈQUE.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la base de données DATASTAGEDB dans Snowflake. Vous êtes maintenant prêt à créer l'exemple de projet dans Cloud Pak for Data pour les informations de connexion et le flux DataStage .

Base de données DATASTAGEDB dans Snowflake




Tâche 2: Créer le projet DataStage

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:46.

Vous avez besoin d'un projet pour stocker les connexions aux sources de données externes et au flux DataStage . Pour créer l'exemple de projet, procédez comme suit:

  1. Accédez au projet d'exemple d'intégration de données dans le centre de ressources.

  2. Cliquez sur Créer un projet.

  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.

  4. Cliquez sur Créer.

  5. Attendez la fin de l'importation du projet, puis cliquez sur Afficher le nouveau projet.

  6. Cliquez sur l'onglet Actifs pour vérifier que le projet et les actifs ont été créés avec succès.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'exemple de projet. Vous êtes maintenant prêt à créer la connexion à Snowflake.

L'image suivante montre l'exemple de projet.




Tâche 3: Créer une connexion à votre entrepôt de données Snowflake

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:17.

Vous devez ajouter les informations de connexion à votre projet pour pouvoir accéder à l'entrepôt de données Snowflake dans votre flux DataStage . Pour créer un actif de connexion dans votre projet, procédez comme suit:

  1. Dans l'onglet Actifs , cliquez sur Nouvel actif > Connexion à une source de données.

  2. Recherchez le flocon de neige dans le Trouver des connecteurs champ de recherche.

  3. Sélectionnez le Flocon de neige type de connexion, puis cliquez sur Suivant .

  4. Sur la page Créer une connexion: Snowflake , entrez Snowflake comme nom de connexion.

  5. Pour les Détails de connexion, renseignez les zones suivantes à l'aide des informations du compte Snowflake que vous venez de créer:

    • Nom de compte: votre nom de compte est une combinaison de votre ID de compte, de votre région et de votre fournisseur de cloud. Vous pouvez trouver ces informations dans l'URL lorsque vous êtes connecté à votre compte Snowflake.

      1. Cliquez sur votre nom d'utilisateur pour voir les options du menu.

      2. Survolez votre compte.

      3. Dans le menu du compte, survolez le lien de votre compte.

      4. Cliquez sur l'icône Copier l'URL du compte, comme le montre l'image suivante :

        Copier l'URL du lien du compte

    • Base de données: Type DATASTAGEDB

    • Rôle: Type ACCOUNTADMIN

    • Entrepôt de données: Type DATASTAGEDATA

    • Nom d'utilisateur: Entrez votre nom d'utilisateur de compte Snowflake.

    • Mot de passe: entrez le mot de passe de votre compte Snowflake.

  6. Cliquez sur Tester la connexion pour tester la connexion à votre compte Snowflake.

  7. Si le test aboutit, cliquez sur Créer. Si vous êtes invité à créer la connexion sans définir l'emplacement et la souveraineté, cliquez sur Créer. Cette action crée le connecteur Snowflake, que vous pouvez utiliser pour charger les données de Db2 Warehouse dans votre compte Snowflake.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les nouvelles informations de connexion. Vous êtes maintenant prêt à créer le flux DataStage .

L'image suivante montre les nouvelles informations de connexion.




Tâche 4: Créer un flux DataStage

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:20.

Vous êtes maintenant prêt à créer un actif DataStage dans le projet. Procédez comme suit pour créer le flux DataStage :

  1. Du Actifs onglet, cliquez sur Nouvel atout > Transformer et intégrer les données .

  2. Pour Nom, entrez: Load Db2 data to Snowflake

  3. Cliquez sur Créer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le canevas DataStage vide. Vous êtes maintenant prêt à concevoir le flux DataStage .

L'image suivante montre le canevas DataStage vide.




Tâche 5: Conception du flux DataStage

Le flux DataStage contient deux noeuds de connecteur: le connecteur Db2 Warehouse pointant vers l'actif de données source et le connecteur Snowflake pointant vers l'actif de données cible, et plusieurs autres noeuds pour joindre et filtrer les actifs de données. Pour ajouter les noeuds au canevas, procédez comme suit:

Ajoutez les deux noeuds de connecteur

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:36.

Pour ajouter les deux noeuds de connecteur à l'espace de travail, procédez comme suit:

Ajouter le nœud du connecteur Source

  1. Dans la palette de nœuds, développez la section Connecteurs.

  2. Faites glisser le connecteur Navigateur d'actifs et déposez-le n'importe où sur le canevas vide.

    Faites glisser le premier noeud de navigateur d'actif sur l'espace de travail

  3. Lorsque vous déplacez le connecteur Navigateur d'actifs sur le canevas, vous êtes invité à sélectionner l'actif.

    1. Pour localiser l'actif, sélectionnez Connexion > Data Fabric Trial- Db2 Warehouse > BANKING > MORTGAGE_APPLICATION.

      Astuce: Pour développer la connexion et le schéma, cliquez sur le nom de la connexion ou du schéma à la place de la case à cocher.
    2. Cliquez sur Ajouter pour déposer la source de données Db2 Warehouse sur le canevas DataStage .

Ajouter le nœud du connecteur cible

  1. Dans la palette de noeuds, développez la section Connecteurs .

  2. Faites glisser le connecteur Navigateur d'actifs et déposez-le sur la grille pour qu'il soit positionné en tant que deuxième noeud.

    Faites glisser le deuxième noeud de navigateur d'actif sur l'espace de travail

    1. Pour localiser l'actif, sélectionnez Connexion > Snowflake > HYPOTHÈQUE.

      Astuce: cochez la case pour sélectionner le nom de schéma HYPOTHÈQUE.
    2. Cliquez sur Ajouter pour déposer la connexion Snowflake sur le canevas DataStage .

  3. Pour lier les noeuds entre eux, survolez le noeud Mortgage_Application_1 jusqu'à ce qu'une flèche s'affiche. Faites glisser la flèche vers la connexion Snowflake pour connecter les deux noeuds.

    Connectez les deux noeuds sur le canevas

Configurer les nœuds source et cible

  1. Cliquez deux fois sur le noeud MORTGAGE_APPLICATION pour afficher ses paramètres.

    1. Cliquez sur l'onglet Sortie.

    2. Cochez l'option Propagation des colonnes d'exécution . DataStage est flexible sur les métadonnées. Il peut gérer des situations dans lesquelles les métadonnées ne sont pas entièrement définies. Dans ce cas, vous sélectionnez Propagation des colonnes d'exécution pour vous assurer que si le travail DataStage rencontre des colonnes supplémentaires qui ne sont pas définies dans les métadonnées lors de l'exécution du travail, il adopte ces colonnes supplémentaires et les propage dans le reste du travail. Cette fonction permet à votre conception de flux d'être flexible pour la dérive de schéma.

    3. Cliquez sur Sauvegarder.

      Etant donné que vous lisez les données de Db2 Warehouse dans Snowflake, le connecteur Db2 Warehouse est positionné en premier dans le flux. Votre objectif est de charger les données Db2 Warehouse dans Snowflake. Ensuite, vous ajoutez un connecteur Snowflake qui lit les données à partir du connecteur Db2 Warehouse . Ainsi, le connecteur Snowflake est positionné en second dans le flux.

  2. Cliquez deux fois sur le connecteur MORTGAGE_DATA pour afficher ses paramètres.

    1. Remplacez le nom de noeud par Snowflake_mortgage_data

    2. Dans le panneau latéral des paramètres, cliquez sur l'onglet Entrée .

    3. Développez la section Utilisation .

    4. Pour Mode écriture, sélectionnez Insérer.

    5. Pour Nom de table, ajoutez APPLICATION après le nom de schéma, de sorte que le nom de table complet soit MORTGAGE.APPLICATION.

    6. Pour l' action Table, sélectionnez Créer. Ce paramètre crée la table dans la base de données et le schéma spécifiés dans Snowflake, puis charge les données d'entreprise dans cette table.

    7. Acceptez les valeurs par défaut pour toutes les autres zones de la section Actions .

    8. Cliquez sur Sauvegarder pour mettre à jour les modifications et revenir au flux DataStage .

Ajouter les noeuds à joindre et filtrer les données

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:40.

Vous disposez maintenant d'un flux DataStage de base pour charger les données dans Snowflake. Procédez comme suit pour ajouter plusieurs noeuds à joindre et filtrer les données:

Ajouter un autre nœud de connecteur d'actifs

  1. Dans la palette de nœuds, développez la section Connecteurs.

  2. Faites glisser le connecteur Navigateur d'actifs sur le canevas à proximité du noeud MORTGAGE_APPLICATION.

  3. Lorsque vous déplacez le connecteur Navigateur d'actifs sur le canevas, vous êtes invité à sélectionner l'actif.

    1. Pour localiser l'actif, sélectionnez Connexion > Data Fabric Trial- Db2 Warehouse > BANKING > MORTGAGE_APPLICANT.

      Astuce: Pour développer la connexion et le schéma, cliquez sur le nom de la connexion ou du schéma à la place de la case à cocher.
    2. Cliquez sur Ajouter pour déposer la source de données Db2 Warehouse sur le canevas DataStage .

Ajouter le nœud de l'étape de jonction

  1. Dans la palette de noeuds, développez la section Etapes .

  2. Dans la palette de noeuds, faites glisser l'étape Join sur le canevas et déposez le noeud sur la ligne de lien entre les noeuds MORTGAGE_APPLICATION et Snowflake_mortgage_data . Cette action gère les liens du noeud MORTGAGE_APPLICATION vers le noeud JOIN vers le noeud Snowflake_mortgage_data .

  3. Survolez le connecteur MORTGAGE_APPLICANT avec votre souris pour voir la flèche. Connectez la flèche à l'étape de Jointure.

  4. Cliquez deux fois sur le noeud MORTGAGE_APPLICANT pour afficher ses paramètres.

    1. Cliquez sur l'onglet Sortie.

    2. Cochez l'option Propagation des colonnes d'exécution . Comme indiqué précédemment, cette option prend en charge la dérive de schéma.

    3. Cliquez sur Sauvegarder.

  5. Cliquez deux fois sur le noeud Join_1 pour modifier les paramètres.

    1. Développez la section Propriétés.

    2. Cliquez sur Ajouter une clé.

      1. Cliquez à nouveau sur Ajouter une clé.

      2. Sélectionnez ID dans la liste des clés possibles.

      3. Cliquez sur Appliquer.

      4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_1 .

    3. Remplacez le nom du noeud Join_1 par Join_on_ID.

    4. Cliquez sur l'onglet Sortie.

    5. Cochez l'option Propagation des colonnes d'exécution pour prendre en charge la dérive des schémas.

    6. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_on_ID.

Ajouter le nœud de l'étape Filtre

  1. Dans la palette de noeuds, dans la section Etapes , faites glisser le noeud Filtrer sur le canevas et déposez le noeud sur la ligne de lien entre les noeuds Join_on_ID et Snowflake_mortgage_data .

  2. Cliquez deux fois sur le noeud Filter_1 pour éditer les paramètres.

    1. Développez la section Propriétés.

    2. Sous les prédicats, cliquez sur Éditer.

      1. Cliquez sur l'icône Modifier " Editer dans la colonne Clause Where et tapez " STATE_CODE='CA'. Cette clause filtre les demandes d'hypothèque uniquement pour les demandeurs de la Californie.

      2. Cliquez sur Appliquer et renvoyer.

    3. Cliquez sur l'onglet Sortie.

      1. Cochez l'option Propagation des colonnes d'exécution pour prendre en charge la dérive des schémas.
    4. Cliquez sur Sauvegarder pour sauvegarder les paramètres du noeud Filtrer .

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le flux DataStage terminé. Vous êtes maintenant prêt à exécuter le travail DataStage .

L'image suivante montre le flux DataStage terminé.




Tâche 6: Exécuter le travail DataStage

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:23.

Vous êtes maintenant prêt à compiler et à exécuter le travail DataStage pour charger les données Mortgage Application depuis Db2 Warehouse dans Snowflake. Procédez comme suit pour exécuter le travail DataStage :

  1. Dans la barre d'outils, cliquez sur Compiler. Cette action valide votre flux DataStage .

  2. Lorsque le flux est correctement compilé, cliquez sur Exécuter dans la barre d'outils pour démarrer le travail DataStage . L'exécution peut prendre quelques minutes.

  3. Une fois l'exécution terminée, vous voyez un message indiquant que l' exécution a abouti avec des avertissements.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre que l'exécution a abouti. Maintenant que le travail DataStage a abouti, vous pouvez afficher la nouvelle table dans Snowflake.

L'image suivante montre que l'exécution a abouti.




Tâche 7: Afficher l'actif de données dans l'entrepôt de données Snowflake

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:31.

Pour vérifier si les données ont été chargées correctement dans Snowflake, vous pouvez revenir à votre tableau de bord Snowflake.

  1. Accédez à Données > Bases de données.

  2. Développez DATASTAGEDB > HYPOTHÈQUE > TABLES.

  3. Sélectionnez la table APPLICATION .

  4. Sous le nom de la table, cliquez sur l'onglet Aperçu des données .

  5. Sélectionnez l'entrepôt DATASTAGEDATA .

  6. Cliquez sur Aperçu pour afficher un aperçu des données Mortgage Application importées de DataStage.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la table chargée dans Snowflake.

L'image suivante montre la table chargée dans Snowflake.



Vous avez correctement chargé les données d'entreprise d'un Db2 Warehouse dans Snowflake à l'aide de DataStage.


Etapes suivantes

Essayez d'autres tutoriels:

En savoir plus