Démarrage rapide : Transformation des données

Vous pouvez facilement intégrer, nettoyer et analyser des données de sources de données disparates à l'aide d'un flux DataStage. Lisez en davantage à propos de l'outil DataStage , puis regardez une vidéo et suivez un tutoriel qui convient aux utilisateurs avec une certaine connaissance de la transformation des données, mais pour lequel vous n'avez pas besoin de coder.

Service requis DataStage

Votre flux de travaux de base inclut les tâches suivantes :

  1. Créez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
  3. Créer un flux DataStage.
  4. Effectuez les étapes à l'aide des opérations permettant d'affiner les données.
  5. Créez et exécutez un travail pour transformer les données.

En savoir plus sur DataStage

DataStage est un outil d'extraction, de transformation et de chargement (ETL) qui permet de transformer et d'intégrer des données dans des projets.

DataStage est simple d'utilisation et entièrement intégré à Cloud Pak for Data. Vous pouvez importer vos travaux parallèles existants dans DataStage en utilisant des fichiers ISX, utiliser la grille DataStage pour créer, éditer et tester des flux, et exécuter des travaux générés à partir des flux.

En savoir plus sur DataStage

Regarder une vidéo sur la transformation des données à l'aide d'un flux DataStage

Regardez une vidéo Regardez cette vidéo pour voir comment créer un flux DataStage simple.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

Essayer un tutoriel pour transformer des données

Dans ce tutoriel, vous :

  • Créez un projet.
  • Mettre à disposition le service DataStage.
  • Ajouter un fichier à votre projet à partir de la galerie.
  • Créer un flux DataStage.
  • Exécuter votre flux DataStage et afficher votre actif.

Ce tutoriel dure environ 20 minutes.

Etape 1 : Création d'un projet et ajout du service DataStage

{: #step1} Vous avez besoin d'un projet pour stocker le fichier et le flux DataStage.

  1. Si vous avez un projet existant, ouvrez-le. Si vous ne disposez pas d'un projet existant, cliquez sur Créer un projet sur la page d'accueil ou sur Nouveau projet sur votre page Projets.
  2. Sélectionnez Créer un projet vide.
  3. Dans l'écran Créer un projet , ajoutez un nom et une description facultative pour le projet.
  4. Choisissez une instance de service de stockage d'objets existante ou créez-en une nouvelle.
  5. Cliquez sur Créer.
  6. Dans le menu de navigation, cliquez sur Services > Instances de service.
  7. Cliquez sur Ajouter un service et sélectionnez Datastage.
  8. Cliquez sur Créer. Le service mis à disposition est disponible sur votre page des instances de service.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.

Etape 2 : Ajout du fichier à votre projet

{: #step2} Le fichier utilisé dans ce tutoriel est disponible dans la galerie.

  1. Accédez au jeu de données clients dans la galerie.
  2. Cliquez sur Ajouter au projet.
  3. Sélectionnez le projet dans la liste et cliquez sur Ajouter.
  4. Une fois le fichier ajouté, cliquez sur Afficher le projet.

Pour plus d'informations sur l'ajout d'actifs de données de la Galerie à votre projet, voir Chargement et accès aux données dans un bloc-notes.

Étape 3 : Création d'un flux DataStage

{: #step3} Le flux DataStage contiendra quatre nœuds : l'actif de données d'origine, un nœud de filtre, un nœud de tri et l'actif de données transformé.

  1. Cliquez sur Ajouter au projet > Flux Datastage.
  2. Indiquez un nom et une description, puis cliquez sur Créer.
  3. Cliquez sur Connecteurs, puis faites glisser le noeud Navigateur d'actifs sur le canevas.
  4. Sélectionnez Actif de données > customers.csv et cliquez sur Ajouter.
  5. Dans la palette de nœuds, développez la section Étapes, puis faites glisser le noeud Filtrer vers le canevas.
  6. Pour lier les nœuds ensemble, cliquez sur la flèche bleue sur le nœud Customers.csv_1 et faites-le glisser vers le nœud Filtrer.
  7. Dans la section Étapes, faites glisser le nœud Trier vers le canevas.
  8. Connectez le noeud Filtrer au noeud Trier.
  9. Développez la section Connecteurs, puis faites glisser le noeud Navigateur d'actifs sur le canevas.
  10. Sélectionnez Actif de données > customers.csv et cliquez sur Ajouter. Vous allez modifier le nom de fichier ultérieurement de sorte que vous n'écrasiez pas le fichier customer.csv.
  11. Connectez le noeud Trier vers le noeud Customers.csv_2.

Étape 4 : Modification des nœuds

{: #step4} Maintenant, éditez les propriétés de chaque noeud sur la grille.

  1. Editez le premier noeud du navigateur d'actifs :
    1. Cliquez deux fois sur le premier noeud Customer.csv_1.
    2. Dans le panneau Propriétés à droite, renommez le texte customers.csv_1 en Customer Table pour renommer le noeud d'actif.
    3. Cliquez sur l'onglet Sortie.
    4. Développez la section Colonnes et cliquez sur Éditer.
    5. Pour la colonne VENTES YTD_VENTES, cliquez sur VARCHAR et sélectionnez DÉCIMAL pour modifier le type de données de la colonne VENTES YTD_VENTES.
    6. Cliquez sur Appliquer et renvoyer pour revenir au panneau Propriétés.
    7. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud de tableau client.
  2. Editez le noeud Filtrer :
    1. Cliquez deux fois sur le noeud Filtrer.
    2. Dans le panneau Propriétés, renommez le texte Filter_1 en Filter YTD Sales pour renommer le noeud de filtre.
    3. Développez la section Propriétés. Sous les prédicats, cliquez sur Éditer.
      1. Cliquez sur Ajouter une clause where.
      2. Sous la colonne Clause Where, entrez YTD_SALES > 1000.
      3. Cliquez sur Appliquer et renvoyer.
    4. Cliquez sur l'onglet Sortie.
    5. Développez la section Colonnes et cliquez sur Éditer.
    6. Sélectionnez toutes les colonnes et désélectionnez les colonnes ci-dessous qui seront conservées pour ce tutoriel.
      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    7. Cliquez sur l'icône en forme de corbeille pour supprimer les colonnes sélectionnées restantes.
    8. Pour la colonne CUSTNAME, renommez-la CUSTOMERNAME. Cette modification se répercutera sur les nœuds qui suivent le noeud Filtrer.
    9. Cliquez sur Appliquer et renvoyer pour revenir au panneau Propriétés.
    10. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Filtrer.
  3. Editez le noeud Trier :
    1. Cliquez deux fois sur le noeud Trier.
    2. Dans le panneau Propriétés, renommez le texte Sort_1 en Sort YTD Sales pour renommer le noeud de tri.
    3. Développez la section Propriétés.
    4. Sous Tri des clés, cliquez sur Éditer.
    5. Cliquez sur Add key.
    6. Dans la liste déroulante Clé, sélectionnez VENTES YTD_VENTES.
    7. Pour Ordre de tri, sélectionnez Décroissant.
    8. Cliquez sur Appliquer pour revenir à la liste des clés de tri.
    9. Cliquez sur Appliquer et renvoyer pour revenir au panneau Propriétés.
    10. Cliquez sur l'onglet Entrée et développez la section Colonnes pour vérifier que le changement de nom de colonne CUSTOMERNAME s'est propagé à partir du noeud Filtrer.
    11. Cliquez sur l'onglet Sortie et développez la section Colonnes pour vérifier que le changement de nom de colonne CUSTOMERNAME s'est propagé à partir du noeud Filtrer.
    12. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Trier .
  4. Editez le dernier noeud du navigateur d'actifs :
    1. Cliquez deux fois sur le dernier noeud Customers.csv_2.
    2. Dans le panneau Propriétés, renommez le texte Customers.csv_2 en Customer filtered table pour renommer le noeud d'actif.
    3. Développez la section Propriétés et cochez la case Créer un actif de données.
    4. Pour la zone Nom de l'actif de données, entrez Customers filteredet cliquez sur Sauvegarder.
    5. Cliquez sur l'onglet Entrée et développez la section Colonnes pour vérifier que le changement de nom de colonne CUSTOMERNAME s'est propagé à partir du noeud Filtrer.
    6. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Customer_filtered.

Étape 5 : Exécutez le flux DataStage et affichez votre actif

{: #step5} Après avoir exécuté le flux, vous devez afficher l'actif transformé dans le projet.

  1. Cliquez sur le bouton Sauvegarder.
  2. Cliquez sur Compiler.
  3. Cliquez sur Exécuter.
  4. (Facultatif) Cliquez sur le lien Journal pour afficher les détails de l'exécution.
  5. Revenez à votre projet et cliquez sur l'onglet Actifs.
  6. Affichez l'actif Clients filtrés. Vous pouvez voir que les données ont été filtrées et triées correctement.

Etapes suivantes

Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :

Autres ressources

Rubrique parent : Initiation à la préparation des données