0 / 0
Retourner à la version anglaise de la documentation
Démarrage rapide : Transformation des données

Démarrage rapide : Transformation des données

Vous pouvez facilement intégrer, nettoyer et analyser des données de sources de données disparates à l'aide d'un flux DataStage. Lisez en davantage à propos de l'outil DataStage , puis regardez une vidéo et suivez un tutoriel qui convient aux utilisateurs avec une certaine connaissance de la transformation des données, mais pour lequel vous n'avez pas besoin de coder.

Services requis
Watson Studio
DataStage

Votre flux de travaux de base inclut les tâches suivantes :

  1. Créez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
  3. Créer un flux DataStage.
  4. Effectuez les étapes à l'aide des opérations permettant d'affiner les données.
  5. Créez et exécutez un travail pour transformer les données.

En savoir plus sur DataStage

DataStage est un outil d'extraction, de transformation et de chargement (ETL) qui permet de transformer et d'intégrer des données dans des projets.

DataStage est conçu pour être facile à utiliser et est entièrement intégré à Cloud Pak for Data. Vous pouvez importer vos travaux parallèles existants dans DataStage en utilisant des fichiers ISX, utiliser la grille DataStage pour créer, éditer et tester des flux, et exécuter des travaux générés à partir des flux.

En savoir plus sur DataStage

Regarder une vidéo sur la transformation des données à l'aide d'un flux DataStage

Regarder une vidéo Regardez cette vidéo pour voir comment créer un flux DataStage simple.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.


Essayer un tutoriel pour transformer des données

Dans ce tutoriel, vous exécutez les tâches suivantes :

Ce tutoriel dure environ 20 minutes.





Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Tâche 1: Ouvrir un projet

Vous avez besoin d'un projet pour stocker l'ensemble de données et le flux DataStage , et vous devez mettre à disposition le service DataStage . Procédez comme suit pour ouvrir un projet existant ou créer un nouveau projet et mettre à disposition le service:

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Projets > Afficher tous les projets .

  2. Si vous avez un projet existant, ouvrez-le.

  3. Si vous n'avez pas de projet existant, cliquez sur Nouveau projet.

  4. Sélectionnez Créer un projet vide.

  5. Entrez un nom et une description facultative pour le projet.

  6. Cliquez sur Créer.

  7. Dans le menu de navigation Menu de navigation, cliquez sur Services > Instances de service.

  8. Cliquez sur Ajouter un service et sélectionnez Datastage.

  9. Cliquez sur Créer. Le service mis à disposition est disponible sur votre page des instances de service.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les services mis à disposition.

L'image suivante montre les services mis à disposition.




Tâche 2: Ajouter le fichier à votre projet

L'ensemble de données utilisé dans ce tutoriel est disponible dans le concentrateur de ressources. Procédez comme suit pour rechercher l'ensemble de données dans le concentrateur de ressources et l'ajouter à votre projet:

  1. Accédez à l' ensemble de données Clients dans le concentrateur de ressources.

  2. Cliquez sur Ajouter au projet.

  3. Sélectionnez le projet dans la liste et cliquez sur Ajouter.

  4. Une fois le fichier ajouté, cliquez sur Afficher le projet.

Pour plus d'informations sur l'ajout d'actifs de données du concentrateur de ressources à votre projet, voir Chargement et accès aux données dans un bloc-notes.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Actifs dans le projet.

L'image suivante montre l'onglet Actifs dans le projet.




Tâche 3: Créer un flux DataStage

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:26.

Le flux DataStage contient quatre noeuds: l'actif de données d'origine, un noeud de filtre, un noeud de tri et l'actif de données transformé. Procédez comme suit pour créer le flux DataStage :

  1. Cliquez sur Nouvel atout > Transformer et intégrer les données .

  2. Indiquez un nom et une description, puis cliquez sur Créer.

  3. Cliquez sur Connecteurs, puis faites glisser le noeud Navigateur d'actifs sur le canevas.

  4. Sélectionnez Actif de données > customers.csv et cliquez sur Ajouter.

  5. Dans la palette de nœuds, développez la section Étapes, puis faites glisser le noeud Filtrer vers le canevas.

  6. Pour lier les noeuds entre eux, cliquez sur la flèche bleue du noeud Customers.csv et faites-la glisser vers le noeud Filtre .

  7. Dans la section Étapes, faites glisser le nœud Trier vers le canevas.

  8. Connectez le noeud Filtrer au noeud Trier.

  9. Développez la section Connecteurs, puis faites glisser le noeud Navigateur d'actifs sur le canevas.

  10. Sélectionnez Actif de données > customers.csv et cliquez sur Ajouter. Vous allez modifier le nom de fichier ultérieurement de sorte que vous n'écrasiez pas le fichier customer.csv.

  11. Connectez le noeud Trier à ce dernier noeud Customers.csv .

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage initial.

L'image suivante montre le flux DataStage initial.




Tâche 4: Editer les noeuds

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 03:27.

Pour éditer les propriétés de chaque noeud de l'espace de travail, procédez comme suit:

Noeud 1: Editer le premier noeud de navigateur Actif

  1. Cliquez deux fois sur le premier noeud Customer.csv .

  2. Dans le panneau Propriétés à droite, renommez le noeud en Customer Table pour renommer le noeud d'actif.

  3. Cliquez sur l'onglet Sortie.

  4. Développez la section Colonnes et cliquez sur Éditer.

  5. Pour la colonne VENTES YTD_VENTES, cliquez sur VARCHAR et sélectionnez DÉCIMAL pour modifier le type de données de la colonne VENTES YTD_VENTES.

  6. Cliquez sur Appliquer et renvoyer pour revenir au panneau Propriétés.

  7. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud de tableau client.

Noeud 2: Editer le noeud Filtrer

  1. Cliquez deux fois sur le noeud Filtrer.

  2. Dans le panneau Propriétés, renommez le texte Filter_1 en Filter YTD Sales pour renommer le noeud de filtre.

  3. Développez la section Propriétés. Sous les prédicats, cliquez sur Éditer.

    1. Cliquez sur Ajouter une clause where.

    2. Sous la colonne Clause Where , entrez YTD_SALES > 1000.

    3. Cliquez sur Appliquer et renvoyer.

  4. Cliquez sur l'onglet Sortie.

  5. Développez la section Colonnes et cliquez sur Éditer.

    1. Sélectionnez toutes les colonnes et désélectionnez les colonnes ci-dessous qui seront conservées pour ce tutoriel.

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. Cliquez sur l'icône en forme de corbeille pour supprimer les colonnes sélectionnées restantes.

    3. Pour la colonne CUSTNAME, renommez-la CUSTOMERNAME. Cette modification se répercutera sur les nœuds qui suivent le noeud Filtrer.

    4. Cliquez sur Appliquer et renvoyer pour revenir au panneau Propriétés.

  6. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Filtrer.

Noeud 3: Editer le noeud Trier

  1. Cliquez deux fois sur le noeud Trier.

  2. Dans le panneau Propriétés, renommez le texte Sort_1 en Sort YTD Sales pour renommer le noeud de tri.

  3. Développez la section Propriétés.

  4. Sous Tri des clés, cliquez sur Éditer.

    1. Cliquez sur Ajouter une clé.

    2. Dans la liste déroulante Clé, sélectionnez VENTES YTD_VENTES.

    3. Pour Ordre de tri, sélectionnez Décroissant.

    4. Cliquez sur Appliquer pour revenir à la liste des clés de tri.

    5. Cliquez sur Appliquer et renvoyer pour revenir au panneau Propriétés.

  5. Cliquez sur l'onglet Entrée et développez la section Colonnes pour vérifier que le changement de nom de colonne CUSTOMERNAME s'est propagé à partir du noeud Filtrer.

  6. Cliquez sur l'onglet Sortie et développez la section Colonnes pour vérifier que le changement de nom de colonne CUSTOMERNAME s'est propagé à partir du noeud Filtrer.

  7. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Trier .

Noeud 4: Editer le dernier noeud de navigateur Actif

  1. Cliquez deux fois sur le dernier noeud Customers.csv .

  2. Dans le panneau Propriétés , renommez le noeud en Customer filtered table pour renommer le noeud d'actif.

  3. Développez la section Propriétés et cochez la case Créer un actif de données.

  4. Pour la zone Nom de l'actif de données, entrez Customers filteredet cliquez sur Sauvegarder.

  5. Cliquez sur l'onglet Entrée et développez la section Colonnes pour vérifier que le changement de nom de colonne CUSTOMERNAME s'est propagé à partir du noeud Filtrer.

  6. Cliquez sur Sauvegarder pour sauvegarder les modifications apportées au noeud Table filtrée des clients .

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage final.

L'image suivante montre le flux DataStage final.




Tâche 5: Exécuter votre flux DataStage et afficher votre actif

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 06:36.

Vous êtes maintenant prêt à exécuter le flux. Procédez comme suit pour exécuter le flux et afficher l'actif transformé dans le projet:

  1. Cliquez sur Sauvegarder.

  2. Cliquez sur Compiler.

  3. Cliquez sur le bouton Exécuter.

  4. (Facultatif) Cliquez sur le lien Journal pour afficher les détails de l'exécution.

  5. Cliquez deux fois sur le dernier noeud Clients filtrés dans la table .

  6. Développez la section Propriétés.

  7. Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Vous pouvez voir que les données ont été filtrées et triées correctement.

    1. Cliquez sur le panneau Graphique .

    2. Pour les Colonnes à visualiser, sélectionnez YTD_SALES.

    3. Pour le type de graphique, cliquez sur Tracé Q-Q.

    4. Cliquez sur Fermer.

  8. Comme vous avez configuré le flux pour créer un actif de données dans le projet, cliquez sur le nom du projet dans la trace de navigation pour revenir à votre projet.

  9. Dans l'onglet Actifs , ouvrez l'actif Clients filtrés .

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'actif de données filtré par les clients.

L'image suivante montre l'actif de données filtré par les clients.



Etapes suivantes

Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :

Autres ressources

Rubrique parent: Tutoriels de démarrage rapide

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus