0 / 0
Retourner à la version anglaise de la documentation
Démarrage rapide : Affinage des données

Démarrage rapide : Affinage des données

Vous pouvez économiser du temps de préparation des données en transformant rapidement de grandes quantités de données brutes en informations consommables de haute qualité prêtes pour l'analyse. Lisez à propos de l'outil Data Refinery, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants pour lequel vous n'avez pas besoin de coder.

Votre flux de travaux de base inclut les tâches suivantes :

  1. Ouvrez votre projet de bac à sable. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
  3. Ouvrez les données dans Data Refinery.
  4. Effectuez les étapes à l'aide des opérations permettant d'affiner les données.
  5. Créez et exécutez un travail pour transformer les données.

En savoir plus sur Data Refinery

Utilisez Data Refinery pour nettoyer et mettre en forme les données tabulaires à l'aide d'un éditeur de flux graphique. Vous pouvez également utiliser des modèles (templates) interactifs pour coder les opérations, fonctions et opérateurs logiques. Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous mettez en forme des données, vous les personnalisez en filtrant, triant, combinant ou retirant des colonnes et en exécutant des opérations.

Vous pouvez créer un flux Data Refinery sous la forme d'un ensemble d'opérations ordonnées sur des données. Data Refinery inclut une interface graphique pour profiler vos données en vue de leur validation et plus de 20 graphiques personnalisables qui vous donnent une perspective et un aperçu de vos données. Lorsque vous sauvegardez le jeu de données affiné, vous le chargez généralement dans un emplacement différent de celui où vous l'avez lu. Ainsi, vos données source ne sont pas modifiées par le processus d'affinage.

En savoir plus sur le raffinage de données

Regarder une vidéo sur l'affinage des données

Regarder la vidéo Regardez cette vidéo pour savoir comment affiner les données.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.


Essayer un tutoriel pour affiner des données

Dans ce tutoriel, vous exécutez les tâches suivantes :

Ce tutoriel dure environ 30 minutes.





Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéwatsonx.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Tâche 1: Ouvrir un projet

Vous avez besoin d'un projet pour stocker les données et le flux Data Refinery. Vous pouvez utiliser votre projet de bac à sable ou créer un projet.

  1. Dans le menu de navigation Menu de navigation, sélectionnez Projets > Afficher tous les projets .

  2. Ouvrez votre projet de bac à sable. Si vous souhaitez utiliser un nouveau projet:

    1. Cliquez sur Nouveau projet.

    2. Sélectionnez Créer un projet vide.

    3. Entrez un nom et une description facultative pour le projet.

    4. Choisissez une instance de service object storage existante ou crée en une nouvelle.

    5. Cliquez sur Créer.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre un nouveau projet vide.

L'image suivante montre un nouveau projet vide.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.




Tâche 2: Ouvrir le jeu de données dans Data Refinery

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:05.

Procédez comme suit pour ajouter un actif de données à votre projet et créer un flux Data Refinery . L'ensemble de données que vous utiliserez dans ce tutoriel est disponible dans le concentrateur de ressources.

  1. Accédez aux données de la compagnie aérienne dans le concentrateur de ressources.

  2. Cliquez sur Ajouter au projet.

  3. Sélectionnez votre projet dans la liste et cliquez sur Ajouter.

  4. Une fois le fichier ajouté, cliquez sur Afficher le projet.

    Pour plus d'informations sur l'ajout d'un actif de données à partir du concentrateur de ressources à un projet, voir Chargement et accès aux données dans un bloc-notes.

  5. Dans l'onglet Actifs , cliquez sur l'actif de données airline-data.csv pour prévisualiser son contenu.

  6. Cliquez sur Préparer les données pour ouvrir un échantillon du fichier dans Data Refineryet attendez que Data Refinery lise et traite un échantillon des données.

  7. Fermez les panneaux Informations et Etapes .

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'actif de données de compagnie aérienne ouvert dans Data Refinery.

L'image suivante montre l'actif de données de compagnie aérienne ouvert dans Data Refinery.




Tâche 3: Vérifier les données à l'aide de profils et de visualisations

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:47.

Le contenu d'un actif est automatiquement profilé et classé en fonction des valeurs de ces colonnes. Suivez ces étapes pour utiliser les onglets Profil et Visualisations pour explorer les données.

Astuce: utilisez les pages Profil et Visualisations pour afficher les modifications apportées aux données au fur et à mesure que vous les affinez.
  1. Cliquez sur l'onglet Profil pour consulter la distribution de fréquences des données afin de trouver les valeurs extrêmes.

    1. Faites défiler les colonnes pour afficher les statistiques de chaque colonne. Les statistiques montrent l'écart interquartile, le minimum, le maximum, la médiane et l'écart type dans chaque colonne.

    2. Placez le pointeur de la souris sur une barre pour afficher des détails supplémentaires.

    L'image suivante illustre l'onglet Profil:
    Onglet Profil

  2. Cliquez sur l'onglet Visualisations.

    1. Sélectionnez la colonne Transporteur à visualiser. Un point bleu apparaît en regard des icônes des graphiques suggérés.

    2. Cliquez sur le graphique Graphique circulaire . Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Visualisations. Vous êtes maintenant prêt à affiner les données.

Onglet Visualisations




Tâche 4: Affiner les données

Opérations Data Refinery

Data Refinery utilise deux types d'opérations pour affiner les données, les opérations d'interface graphique et les opérations de codage. Vous allez utiliser les deux types d'opérations dans ce tutoriel.

  • Les opérations d'interface graphique peuvent comporter plusieurs étapes. Sélectionnez une opération dans Nouvelle étape. Un sous-ensemble des opérations de l'interface graphique est également disponible à partir du menu Dépassement de chaque colonne (menu déroulant dynamique).

    Lorsque vous ouvrez un fichier dans Data Refinery, l'opération Convertir le type de colonne est automatiquement appliquée comme première étape pour convertir des types de données non-chaîne en types de données déduits (par exemple, vers un nombre entier, Date, Booléen, etc.). Vous pouvez annuler ou éditer cette étape.

  • Les opérations de codage sont des modèles (templates) interactifs pour les opérations de codage, fonctions et opérateurs logiques. La plupart des opérations s'accompagnent d'une aide interactive. Cliquez sur le nom de l'opération dans la ligne de commande (boîte de texte) pour voir les opérations de codage et les options de leur syntaxe.

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 01:16.

Le rffinement des données est une série d'étapes pour la génération d'un flux de Data Refinery. A mesure que vous parcourez cette tâche, affichez le panneau Etapes pour suivre votre progression. Vous pouvez sélectionner une étape pour la supprimer ou l'éditer. Si vous faites une erreur, vous pouvez également cliquer sur l'icône Annuler Annuler. Pour affiner les données, procédez comme suit:

  1. Revenez à l'onglet Données.

  2. Sélectionnez la colonne Année. Cliquez sur le menu Dépassement (Menu déroulant dynamique) et choisissez Trier dans l'ordre décroissant.

  3. Cliquez sur Etapes pour afficher la nouvelle étape dans le panneau Etapes .

  4. Concentrez-vous sur les retards pour une compagnie aérienne spécifique. Ce tutoriel utilise United Airlines (UA), mais vous pouvez choisir n'importe quelle compagnie aérienne.

    1. Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Filtrer.

    2. Choisissez la colonne Transporteur unique.

    3. Pour Opérateur, choisissez Est égal à.

    4. Pour Valeur, entrez la chaîne de la compagnie pour laquelle vous souhaitez voir les informations de retard. Par exemple, UA.
      Filtrer l'opération

    5. Cliquez sur Appliquer. Faites défiler la colonne vers la colonne Transporteur pour afficher les résultats.

  5. Créez une nouvelle colonne qui additionne les retards au départ et à l'arrivée.

    1. Sélectionnez la colonne DepDelay .

    2. Notez que l'opération Convertir le type de colonne a été automatiquement appliquée en tant que première étape pour convertir les types de données de chaîne dans toutes les colonnes dont les valeurs sont des nombres à des types de données entier.

    3. Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Calculer.

    4. Pour l'opérateur, choisissez Ajout.

    5. Sélectionnez Colonne, puis choisissez la colonne ArrDelay .

    6. Sélectionnez Créer une nouvelle colonne pour des résultats.

    7. Pour Nouveau nom de colonne, entrez TotalDelay.
      Calculer l'opération

    8. Vous pouvez positionner la nouvelle colonne à la fin de la liste des colonnes ou à côté de la colonne d'origine. Dans ce cas, sélectionnez Suivant la colonne d'origine.

    9. Cliquez sur Appliquer. La nouvelle colonne, TotalDelay, est ajoutée.

  6. Déplacez la nouvelle colonne Retard total vers le début du fichier :

    1. Dans la zone de texte de ligne de commande, choisissez l'opération Sélectionner.

    2. Cliquez sur le mot select, puis choisissez select(`<column>`, everything()).

    3. Cliquez sur `<column>`, puis sélectionnez la colonne Retard total. Lorsque vous avez terminé, la commande doit se présenter comme suit :

      select(`TotalDelay`, everything())
      
    4. Cliquez sur Appliquer. La colonne Retard total est maintenant la première colonne.

  7. Réduisez les données à quatre colonnes: Année, Mois, Jour du moiset Retard total. Utilisez l'opération de codage Group_by pour diviser les colonnes en groupes d'année, de mois et de jour.

    1. Dans la zone de texte de ligne de commande, choisissez l'opération Group_by.

    2. Cliquez sur <column>, puis sélectionnez la colonne Année.

    3. Avant la parenthèse fermante, entrez : ,Month,DayofMonth. Lorsque vous avez terminé, la commande doit se présenter comme suit :

      group_by(`Year`,Month,DayofMonth)
      
    4. Cliquez sur Appliquer.

    5. Utilisez l'opération de codage Sélectionner pour la colonne Retard total. Dans la zone de texte de ligne de commande, sélectionnez l'opération Sélectionner.
      Cliquez sur <column> et choisissez la colonne Retard total. La commande doit se présenter comme suit :

      select(`TotalDelay`)
      
    6. Cliquez sur Appliquer. La forme des données se composent maintenant des colonnes Année, Mois, Jour du mois et Retard total.

      L'image écran suivante montre les quatre premières lignes des données.
      Les quatre premières lignes du flux de Data Refinery avec les colonnes Années, Mois, Jour du mois et retard total.

  8. Affichez la moyenne des valeurs de la colonne TotalDelay et créez une nouvelle colonne AverageDelay :

    1. Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Agréger.

    2. Pour la Colonne, sélectionnez TotalDelay.

    3. Pour Opérateur, sélectionnez Moyenne.

    4. Pour Nom de la colonne agrégée, entrez AverageDelay.
      Opération d'agrégation

    5. Cliquez sur Appliquer.

      La nouvelle colonne AverageDelay correspond à la moyenne de tous les temps d'attente.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les quatre premières lignes des données.

L'image écran suivante montre les quatre premières lignes des données.




Tâche 5: Exécuter un travail pour le flux Data Refinery

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 04:16.

Lorsque vous exécutez un travail pour le flux Data Refinery, les étapes sont exécutées sur la totalité du fichier. Vous sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. La sortie du flux Data Refinery est ajoutée aux actifs de données du projet. Procédez comme suit pour exécuter un travail afin de créer le fichier affiné.

  1. Dans la barre d'outils Data Refinery , cliquez sur l'icône Travaux et sélectionnez Sauvegarder et créer un travail.
    Sauvegarder et créer un travail

  2. Entrez un nom et une description pour le travail, puis cliquez sur Suivant.

  3. Sélectionnez un environnement d'exécution et cliquez sur Suivant.

  4. (Facultatif) Cliquez sur le bouton à bascule pour planifier une exécution. Indiquez la date, l'heure et si vous souhaitez que le travail se répète, puis cliquez sur Suivant.

  5. (Facultatif) Activez les notifications pour ce travail, puis cliquez sur Suivant.

  6. Passez en revue les détails, puis cliquez sur Créer et exécuter pour exécuter le travail immédiatement.
    création de travail

  7. Lorsque le travail est créé, cliquez sur le lien Détails du travail dans la notification pour afficher le travail dans votre projet. Vous pouvez également accéder à l'onglet Travaux du projet et cliquer sur le nom du travail pour l'ouvrir.

  8. Lorsque le Statut du travail est Terminé, utilisez la trace de navigation du projet pour revenir à l'onglet Actifs du projet.

  9. Cliquez sur la section Données > Actifs de données pour afficher la sortie du flux Data Refinery , airline-data_shaped.csv.

  10. Cliquez sur la section Flux > Data Refinery pour afficher le flux Data Refinery , airline-data.csv_flow.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Actifs avec le flux Data Refinery et l'actif mis en forme.

L'image suivante montre l'onglet Actifs avec le flux Data Refinery et l'actif mis en forme.




Tâche 6: Créer un autre actif de données à partir du flux Data Refinery

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 05:26.

Procédez comme suit pour affiner davantage le jeu de données en éditant le flux Data Refinery :

  1. Cliquez sur airline-data.csv_flow pour ouvrir le flux dans Data Refinery.

  2. Triez la colonne AverageDelay par ordre décroissant.

    1. Sélectionnez la colonne AverageDelay .

    2. Cliquez sur le menu Dépassement de la colonne (Menu déroulant dynamique), puis sélectionnez Trier par ordre décroissant.

  3. Cliquez sur l'icône Paramètres de flux Paramètres de flux.

  4. Cliquez sur le panneau Ensemble de données cible .

  5. Cliquez sur Editer les propriétés.

    1. Dans la boîte de dialogue Mise en forme des propriétés de la cible , remplacez le nom de l'actif de données par airline-data_sorted_shaped.csv.
      nom de fichier de sortie modifié

    2. Cliquez sur Sauvegarder pour revenir aux paramètres de flux.

  6. Cliquez sur Appliquer pour sauvegarder les paramètres.

  7. Dans la barre d'outils Data Refinery , cliquez sur l'icône Travaux et sélectionnez Sauvegarder et afficher les travaux.
    Sauvegarder et afficher les travaux

  8. Sélectionnez le travail pour les données d'entreprise, puis cliquez sur Afficher.

  9. Dans la barre d'outils de la fenêtre Travail , cliquez sur l'icône Exécuter le travail .
    Exécuter des travaux

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les détails du travail terminé.

L'image suivante montre les détails du travail terminé.




Tâche 7: Afficher les actifs de données et votre flux Data Refinery dans votre projet

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 06:40.

A présent, procédez comme suit pour afficher les trois actifs de données: l'actif d'origine, le premier ensemble de données affiné et le deuxième ensemble de données affiné:

  1. Une fois le travail terminé, accédez à la page du projet.

  2. Cliquez sur l'onglet Actifs.

  3. Dans la section Actifs de données, vous verrez l'ensemble de données d'origine que vous avez téléchargé et la sortie des deux flux Data Refinery.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. Cliquez sur l'actif de données Airline-data_csv_façonner pour voir le retard moyen non trié. Revenez à l'onglet Actifs .

  5. Cliquez sur l'actif de données airline-data_sorted_shaped.csv pour voir les retards moyens triés par ordre décroissant. Revenez à l'onglet Actifs .

  6. Cliquez sur la section Flux > Data Refinery pour afficher le flux Data Refinery : airline-data.csv_flow.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Actifs avec tous les actifs affichés.

L'image suivante montre l'onglet Actifs avec tous les actifs affichés.



Etapes suivantes

Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :

Ressources supplémentaires

  • Afficher plus de vidéos.

  • Recherchez des exemples d'ensembles de données, de projets, de modèles, d'invites et de blocs-notes dans le concentrateur de ressources pour acquérir une expérience pratique:

    Bloc-notes Notebooks que vous pouvez ajouter à votre projet pour commencer à analyser les données et à générer des modèles.

    Projet Projets que vous pouvez importer contenant des blocs-notes, des ensembles de données, des invites et d'autres actifs.

    Jeu de données Ensembles de données que vous pouvez ajouter à votre projet pour affiner, analyser et générer des modèles.

    Invite Invites que vous pouvez utiliser dans le lab d'invite pour demander un modèle de base.

    Modèle Modèles Foundation que vous pouvez utiliser dans Prompt Lab.

Rubrique parent: Tutoriels de démarrage rapide

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus