Démarrage rapide : Affinage des données
Vous pouvez économiser du temps de préparation des données en transformant rapidement de grandes quantités de données brutes en informations consommables de haute qualité prêtes pour l'analyse. Lisez à propos de l'outil Data Refinery, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants pour lequel vous n'avez pas besoin de coder.
Votre flux de travaux de base inclut les tâches suivantes :
- Ouvrez votre projet de bac à sable. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
- Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
- Ouvrez les données dans Data Refinery.
- Effectuez les étapes à l'aide des opérations permettant d'affiner les données.
- Créez et exécutez un travail pour transformer les données.
En savoir plus sur Data Refinery
Utilisez Data Refinery pour nettoyer et mettre en forme les données tabulaires à l'aide d'un éditeur de flux graphique. Vous pouvez également utiliser des modèles (templates) interactifs pour coder les opérations, fonctions et opérateurs logiques. Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous mettez en forme des données, vous les personnalisez en filtrant, triant, combinant ou retirant des colonnes et en exécutant des opérations.
Vous pouvez créer un flux Data Refinery sous la forme d'un ensemble d'opérations ordonnées sur des données. Data Refinery inclut une interface graphique pour profiler vos données en vue de leur validation et plus de 20 graphiques personnalisables qui vous donnent une perspective et un aperçu de vos données. Lorsque vous sauvegardez le jeu de données affiné, vous le chargez généralement dans un emplacement différent de celui où vous l'avez lu. Ainsi, vos données source ne sont pas modifiées par le processus d'affinage.
Regarder une vidéo sur l'affinage des données
Regardez cette vidéo pour savoir comment affiner les données.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayer un tutoriel pour affiner des données
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1: Ouvrir un projet.
- Tâche 2: Ouvrir le jeu de données dans Data Refinery.
- Tâche 3: Vérifier les données avec le profil et les visualisations.
- Tâche 4: Affiner les données.
- Tâche 5: Exécuter un travail pour le flux Data Refinery .
- Tâche 6: Créer un autre actif de données à partir du flux Data Refinery .
- Tâche 7: Afficher les actifs de données et votre flux Data Refinery dans votre projet.
Ce tutoriel dure environ 30 minutes.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéwatsonx.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Tâche 1: Ouvrir un projet
Vous avez besoin d'un projet pour stocker les données et le flux Data Refinery. Vous pouvez utiliser votre projet de bac à sable ou créer un projet.
Dans le menu de navigation , sélectionnez Projets > Afficher tous les projets .
Ouvrez votre projet de bac à sable. Si vous souhaitez utiliser un nouveau projet:
Cliquez sur Nouveau projet.
Sélectionnez Créer un projet vide.
Entrez un nom et une description facultative pour le projet.
Choisissez une instance de service object storage existante ou crée en une nouvelle.
Cliquez sur Créer.
Vérifiez votre progression
L'image suivante montre un nouveau projet vide.
Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.
Tâche 2: Ouvrir le jeu de données dans Data Refinery
Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:05.
Procédez comme suit pour ajouter un actif de données à votre projet et créer un flux Data Refinery . L'ensemble de données que vous utiliserez dans ce tutoriel est disponible dans le concentrateur de ressources.
Accédez aux données de la compagnie aérienne dans le concentrateur de ressources.
Cliquez sur Ajouter au projet.
Sélectionnez votre projet dans la liste et cliquez sur Ajouter.
Une fois le fichier ajouté, cliquez sur Afficher le projet.
Pour plus d'informations sur l'ajout d'un actif de données à partir du concentrateur de ressources à un projet, voir Chargement et accès aux données dans un bloc-notes.
Dans l'onglet Actifs , cliquez sur l'actif de données airline-data.csv pour prévisualiser son contenu.
Cliquez sur Préparer les données pour ouvrir un échantillon du fichier dans Data Refineryet attendez que Data Refinery lise et traite un échantillon des données.
Fermez les panneaux Informations et Etapes .
Vérifiez votre progression
L'image suivante montre l'actif de données de compagnie aérienne ouvert dans Data Refinery.
Tâche 3: Vérifier les données à l'aide de profils et de visualisations
Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:47.
Le contenu d'un actif est automatiquement profilé et classé en fonction des valeurs de ces colonnes. Suivez ces étapes pour utiliser les onglets Profil et Visualisations pour explorer les données.
Cliquez sur l'onglet Profil pour consulter la distribution de fréquences des données afin de trouver les valeurs extrêmes.
Faites défiler les colonnes pour afficher les statistiques de chaque colonne. Les statistiques montrent l'écart interquartile, le minimum, le maximum, la médiane et l'écart type dans chaque colonne.
Placez le pointeur de la souris sur une barre pour afficher des détails supplémentaires.
L'image suivante illustre l'onglet Profil:
Cliquez sur l'onglet Visualisations.
Sélectionnez la colonne Transporteur à visualiser. Un point bleu apparaît en regard des icônes des graphiques suggérés.
Cliquez sur le graphique Graphique circulaire . Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données.
Vérifiez votre progression
L'image suivante montre l'onglet Visualisations. Vous êtes maintenant prêt à affiner les données.
Tâche 4: Affiner les données
Opérations Data Refinery
Data Refinery utilise deux types d'opérations pour affiner les données, les opérations d'interface graphique et les opérations de codage. Vous allez utiliser les deux types d'opérations dans ce tutoriel.
Les opérations d'interface graphique peuvent comporter plusieurs étapes. Sélectionnez une opération dans Nouvelle étape. Un sous-ensemble des opérations de l'interface graphique est également disponible à partir du menu Dépassement de chaque colonne ().
Lorsque vous ouvrez un fichier dans Data Refinery, l'opération Convertir le type de colonne est automatiquement appliquée comme première étape pour convertir des types de données non-chaîne en types de données déduits (par exemple, vers un nombre entier, Date, Booléen, etc.). Vous pouvez annuler ou éditer cette étape.
Les opérations de codage sont des modèles (templates) interactifs pour les opérations de codage, fonctions et opérateurs logiques. La plupart des opérations s'accompagnent d'une aide interactive. Cliquez sur le nom de l'opération dans la ligne de commande (boîte de texte) pour voir les opérations de codage et les options de leur syntaxe.
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 01:16.
Le rffinement des données est une série d'étapes pour la génération d'un flux de Data Refinery. A mesure que vous parcourez cette tâche, affichez le panneau Etapes pour suivre votre progression. Vous pouvez sélectionner une étape pour la supprimer ou l'éditer. Si vous faites une erreur, vous pouvez également cliquer sur l'icône Annuler . Pour affiner les données, procédez comme suit:
Revenez à l'onglet Données.
Sélectionnez la colonne Année. Cliquez sur le menu Dépassement () et choisissez Trier dans l'ordre décroissant.
Cliquez sur Etapes pour afficher la nouvelle étape dans le panneau Etapes .
Concentrez-vous sur les retards pour une compagnie aérienne spécifique. Ce tutoriel utilise United Airlines (UA), mais vous pouvez choisir n'importe quelle compagnie aérienne.
Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Filtrer.
Choisissez la colonne Transporteur unique.
Pour Opérateur, choisissez Est égal à.
Pour Valeur, entrez la chaîne de la compagnie pour laquelle vous souhaitez voir les informations de retard. Par exemple,
UA
.
Cliquez sur Appliquer. Faites défiler la colonne vers la colonne Transporteur pour afficher les résultats.
Créez une nouvelle colonne qui additionne les retards au départ et à l'arrivée.
Sélectionnez la colonne DepDelay .
Notez que l'opération Convertir le type de colonne a été automatiquement appliquée en tant que première étape pour convertir les types de données de chaîne dans toutes les colonnes dont les valeurs sont des nombres à des types de données entier.
Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Calculer.
Pour l'opérateur, choisissez Ajout.
Sélectionnez Colonne, puis choisissez la colonne ArrDelay .
Sélectionnez Créer une nouvelle colonne pour des résultats.
Pour Nouveau nom de colonne, entrez
TotalDelay
.
Vous pouvez positionner la nouvelle colonne à la fin de la liste des colonnes ou à côté de la colonne d'origine. Dans ce cas, sélectionnez Suivant la colonne d'origine.
Cliquez sur Appliquer. La nouvelle colonne, TotalDelay, est ajoutée.
Déplacez la nouvelle colonne Retard total vers le début du fichier :
Dans la zone de texte de ligne de commande, choisissez l'opération Sélectionner.
Cliquez sur le mot select, puis choisissez select(`
<column>
`, everything()).Cliquez sur
`<column>`
, puis sélectionnez la colonne Retard total. Lorsque vous avez terminé, la commande doit se présenter comme suit :select(`TotalDelay`, everything())
Cliquez sur Appliquer. La colonne Retard total est maintenant la première colonne.
Réduisez les données à quatre colonnes: Année, Mois, Jour du moiset Retard total. Utilisez l'opération de codage Group_by pour diviser les colonnes en groupes d'année, de mois et de jour.
Dans la zone de texte de ligne de commande, choisissez l'opération Group_by.
Cliquez sur
<column>
, puis sélectionnez la colonne Année.Avant la parenthèse fermante, entrez :
,Month,DayofMonth
. Lorsque vous avez terminé, la commande doit se présenter comme suit :group_by(`Year`,Month,DayofMonth)
Cliquez sur Appliquer.
Utilisez l'opération de codage Sélectionner pour la colonne Retard total. Dans la zone de texte de ligne de commande, sélectionnez l'opération Sélectionner.
Cliquez sur<column>
et choisissez la colonne Retard total. La commande doit se présenter comme suit :select(`TotalDelay`)
Cliquez sur Appliquer. La forme des données se composent maintenant des colonnes Année, Mois, Jour du mois et Retard total.
L'image écran suivante montre les quatre premières lignes des données.
Affichez la moyenne des valeurs de la colonne TotalDelay et créez une nouvelle colonne AverageDelay :
Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Agréger.
Pour la Colonne, sélectionnez TotalDelay.
Pour Opérateur, sélectionnez Moyenne.
Pour Nom de la colonne agrégée, entrez
AverageDelay
.
Cliquez sur Appliquer.
La nouvelle colonne AverageDelay correspond à la moyenne de tous les temps d'attente.
Vérifiez votre progression
L'image suivante montre les quatre premières lignes des données.
Tâche 5: Exécuter un travail pour le flux Data Refinery
Pour prévisualiser cette tâche, regardez la vidéo à partir de 04:16.
Lorsque vous exécutez un travail pour le flux Data Refinery, les étapes sont exécutées sur la totalité du fichier. Vous sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. La sortie du flux Data Refinery est ajoutée aux actifs de données du projet. Procédez comme suit pour exécuter un travail afin de créer le fichier affiné.
Dans la barre d'outils Data Refinery , cliquez sur l'icône Travaux et sélectionnez Sauvegarder et créer un travail.
Entrez un nom et une description pour le travail, puis cliquez sur Suivant.
Sélectionnez un environnement d'exécution et cliquez sur Suivant.
(Facultatif) Cliquez sur le bouton à bascule pour planifier une exécution. Indiquez la date, l'heure et si vous souhaitez que le travail se répète, puis cliquez sur Suivant.
(Facultatif) Activez les notifications pour ce travail, puis cliquez sur Suivant.
Passez en revue les détails, puis cliquez sur Créer et exécuter pour exécuter le travail immédiatement.
Lorsque le travail est créé, cliquez sur le lien Détails du travail dans la notification pour afficher le travail dans votre projet. Vous pouvez également accéder à l'onglet Travaux du projet et cliquer sur le nom du travail pour l'ouvrir.
Lorsque le Statut du travail est Terminé, utilisez la trace de navigation du projet pour revenir à l'onglet Actifs du projet.
Cliquez sur la section Données > Actifs de données pour afficher la sortie du flux Data Refinery , airline-data_shaped.csv.
Cliquez sur la section Flux > Data Refinery pour afficher le flux Data Refinery , airline-data.csv_flow.
Vérifiez votre progression
L'image suivante montre l'onglet Actifs avec le flux Data Refinery et l'actif mis en forme.
Tâche 6: Créer un autre actif de données à partir du flux Data Refinery
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 05:26.
Procédez comme suit pour affiner davantage le jeu de données en éditant le flux Data Refinery :
Cliquez sur airline-data.csv_flow pour ouvrir le flux dans Data Refinery.
Triez la colonne AverageDelay par ordre décroissant.
Sélectionnez la colonne AverageDelay .
Cliquez sur le menu Dépassement de la colonne (), puis sélectionnez Trier par ordre décroissant.
Cliquez sur l'icône Paramètres de flux .
Cliquez sur le panneau Ensemble de données cible .
Cliquez sur Editer les propriétés.
Dans la boîte de dialogue Mise en forme des propriétés de la cible , remplacez le nom de l'actif de données par
airline-data_sorted_shaped.csv
.
Cliquez sur Sauvegarder pour revenir aux paramètres de flux.
Cliquez sur Appliquer pour sauvegarder les paramètres.
Dans la barre d'outils Data Refinery , cliquez sur l'icône Travaux et sélectionnez Sauvegarder et afficher les travaux.
Sélectionnez le travail pour les données d'entreprise, puis cliquez sur Afficher.
Dans la barre d'outils de la fenêtre Travail , cliquez sur l'icône Exécuter le travail .
Vérifiez votre progression
L'image suivante montre les détails du travail terminé.
Tâche 7: Afficher les actifs de données et votre flux Data Refinery dans votre projet
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 06:40.
A présent, procédez comme suit pour afficher les trois actifs de données: l'actif d'origine, le premier ensemble de données affiné et le deuxième ensemble de données affiné:
Une fois le travail terminé, accédez à la page du projet.
Cliquez sur l'onglet Actifs.
Dans la section Actifs de données, vous verrez l'ensemble de données d'origine que vous avez téléchargé et la sortie des deux flux Data Refinery.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Cliquez sur l'actif de données Airline-data_csv_façonner pour voir le retard moyen non trié. Revenez à l'onglet Actifs .
Cliquez sur l'actif de données airline-data_sorted_shaped.csv pour voir les retards moyens triés par ordre décroissant. Revenez à l'onglet Actifs .
Cliquez sur la section Flux > Data Refinery pour afficher le flux Data Refinery :
airline-data.csv_flow
.
Vérifiez votre progression
L'image suivante montre l'onglet Actifs avec tous les actifs affichés.
Etapes suivantes
Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :
Ressources supplémentaires
Afficher plus de vidéos.
Recherchez des exemples d'ensembles de données, de projets, de modèles, d'invites et de blocs-notes dans le concentrateur de ressources pour acquérir une expérience pratique:
Notebooks que vous pouvez ajouter à votre projet pour commencer à analyser les données et à générer des modèles.
Projets que vous pouvez importer contenant des blocs-notes, des ensembles de données, des invites et d'autres actifs.
Ensembles de données que vous pouvez ajouter à votre projet pour affiner, analyser et générer des modèles.
Invites que vous pouvez utiliser dans le lab d'invite pour demander un modèle de base.
Modèles Foundation que vous pouvez utiliser dans Prompt Lab.
Rubrique parent: Tutoriels de démarrage rapide