Vous pouvez économiser du temps de préparation des données en transformant rapidement de grandes quantités de données brutes en informations consommables de haute qualité prêtes pour l'analyse. Lisez à propos de l'outil Data Refinery, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants pour lequel vous n'avez pas besoin de coder.
- service requis
- watsonx.ai Studio ou IBM Knowledge Catalog
Votre flux de travaux de base inclut les tâches suivantes :
- Créez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
- Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
- Ouvrez les données dans Data Refinery.
- Effectuez les étapes à l'aide des opérations permettant d'affiner les données.
- Créez et exécutez un travail pour transformer les données.
En savoir plus sur Data Refinery
Utilisez Data Refinery pour nettoyer et mettre en forme les données tabulaires à l'aide d'un éditeur de flux graphique. Vous pouvez également utiliser des modèles interactifs pour coder des opérations, des fonctions et des opérateurs logiques. Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous mettez en forme des données, vous les personnalisez en filtrant, triant, combinant ou retirant des colonnes et en exécutant des opérations.
Vous pouvez créer un flux Data Refinery sous la forme d'un ensemble d'opérations ordonnées sur des données. Data Refinery inclut une interface graphique pour profiler vos données en vue de leur validation et plus de 20 graphiques personnalisables qui vous donnent une perspective et un aperçu de vos données. Lorsque vous sauvegardez le jeu de données affiné, vous le chargez généralement dans un emplacement différent de celui où vous l'avez lu. Ainsi, vos données source ne sont pas modifiées par le processus d'affinage.
Regarder une vidéo sur l'affinage des données
Regardez cette vidéo pour savoir comment affiner les données.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Retranscription de la vidéo Heure Transcription 00:00 Cette vidéo vous montre comment former des données brutes à l'aide de Data Refinery. 00:05 Pour commencer à affiner les données d'un projet, affichez l'actif de données et ouvrez-le dans Data Refinery. 00:14 Le panneau "Informations" contient le nom du flux de données et de la sortie du flux de données, une fois que vous avez fini d'affiner les données. 00:23 L'onglet "Données" affiche un exemple d'ensemble de lignes et de colonnes du jeu de données. 00:29 Pour améliorer les performances, vous ne verrez pas toutes les lignes du shaper. 00:33 Mais soyez assuré que lorsque vous affinez les données, le flux de données sera exécuté sur l'ensemble de données complet. 00:41 L'onglet "Profil" affiche la fréquence et les statistiques récapitulatives de chacune de vos colonnes. 00:49 L'onglet "Visualisations" fournit des visualisations de données pour les colonnes qui vous intéressent. 00:57 Un point bleu apparaît en regard des icônes des graphiques suggérés. 01:03 Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données. 01:12 Maintenant, faisons de la préparation de données. 01:17 Commencez par une opération simple, comme le tri sur la colonne spécifiée-dans ce cas, la colonne "Année". 01:27 Dites que vous voulez vous concentrer sur les retards uniquement pour une compagnie aérienne spécifique afin de pouvoir filtrer les données pour n'afficher que les lignes où le transporteur unique est "United Airlines". 01:47 Il serait utile de voir le retard total. 01:50 Vous pouvez le faire en créant une nouvelle colonne pour combiner les retards d'arrivée et de départ. 01:56 Notez que le type de colonne est considéré comme un entier. 02:00 Sélectionnez la colonne Délai de départ et utilisez l'opération "Calculer". 02:09 Dans ce cas, vous ajouterez la colonne du délai d'arrivée à la colonne sélectionnée et créerez une nouvelle colonne, appelée "TotalDelay" 02:23 Vous pouvez positionner la nouvelle colonne à la fin de la liste des colonnes ou à côté de la colonne d'origine. 02:31 Lorsque vous appliquez l'opération, la nouvelle colonne s'affiche en regard de la colonne Délai de départ. 02:38 Si vous faites une erreur, ou décidez simplement de faire une modification, il suffit d'accéder au panneau "Étapes" et de supprimer cette étape. 02:46 Cela annulera cette opération particulière. 02:50 Vous pouvez également utiliser les boutons de rétablissement et d'annulation. 02:56 Ensuite, vous souhaitez vous concentrer sur la colonne "TotalDelay" afin d'utiliser l'opération "select" pour déplacer la colonne au début. 03:09 Cette commande place la colonne "TotalDelay" en tête de liste, et toutes les autres viennent ensuite. 03:21 Ensuite, utilisez l'opération "group_by" pour diviser les données en groupes par année, mois et jour. 03:32 Ainsi, lorsque vous sélectionnez la colonne "TotalDelay", vous verrez les colonnes "Year", "Month", "DayofMonth", et "TotalDelay". 03:44 Enfin, vous souhaitez trouver la moyenne de la colonne "TotalDelay". 03:48 Lorsque vous développez le menu "Opérations", dans la section "Organiser", vous trouverez l'opération "Agréger", qui inclut la fonction "Moyenne". 04:08 Vous disposez maintenant d'une nouvelle colonne, appelée "AverageDelay", qui représente la moyenne du délai total. 04:17 Maintenant, pour exécuter le flux de données et sauvegarder et créer le travail. 04:24 Indiquez un nom pour le travail et passez à l'écran suivant. 04:28 L'étape "Configurer" vous permet de vérifier l'entrée et la sortie de votre exécution de travail. 04:36 Et sélectionnez l'environnement utilisé pour exécuter le travail. 04:41 La planification d'un travail est facultative, mais vous pouvez définir une date et répéter le travail, si vous le souhaitez. 04:51 Vous pouvez également choisir de recevoir des notifications pour ce travail. 04:56 Tout semble correct, donc créez et exécutez le travail. 05:00 Cela peut prendre plusieurs minutes, car n'oubliez pas que le flux de données sera exécuté sur l'ensemble complet des données. 05:06 Dans l'intervalle, vous pouvez afficher le statut. 05:12 Lorsque l'exécution est compétitive, vous pouvez revenir à l'onglet "Actifs" dans le projet. 05:20 Et ouvrez le flux Data Refinery pour affiner davantage les données. 05:28 Par exemple, vous pouvez trier la colonne "AverageDelay" par ordre décroissant. 05:36 A présent, éditez les paramètres de flux. 05:39 Dans le panneau "Général", vous pouvez modifier le nom du flux Data Refinery . 05:46 Dans le panneau "Ensembles de données source", vous pouvez éditer l'exemple ou le format de l'ensemble de données source ou remplacer la source de données. 05:56 Et dans le panneau "Ensemble de données cible", vous pouvez spécifier un autre emplacement, tel qu'une source de données externe. 06:06 Vous pouvez également éditer les propriétés de la cible, telles que le mode d'écriture, le format de fichier et modifier le nom de l'actif de l'ensemble de données. 06:21 Maintenant, exécutez à nouveau le flux de données, mais cette fois, enregistrez et affichez les travaux. 06:28 Sélectionnez le travail que vous souhaitez afficher dans la liste et exécutez le travail. 06:41 Une fois l'exécution terminée, revenez au projet. 06:46 Et dans l'onglet "Actifs", vous verrez les trois fichiers: 06:51 L'original. 06:54 Le premier ensemble de données affiné, montrant le "AverageDelay" non trié. 07:02 Et le deuxième ensemble de données, montrant la colonne "AverageDelay" triée par ordre décroissant. 07:11 Puis, dans l'onglet "Actifs", il y a le flux Data Refinery . 07:19 Trouvez d'autres vidéos dans la documentation de Cloud Pak for Data as a Service.
Essayer un tutoriel pour affiner des données
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1: Ouvrir un projet.
- Tâche 2: Ouvrir le jeu de données dans Data Refinery.
- Tâche 3: Vérifier les données avec le profil et les visualisations.
- Tâche 4: Affiner les données.
- Tâche 5: Exécuter un travail pour le flux Data Refinery .
- Tâche 6: Créer un autre actif de données à partir du flux Data Refinery .
- Tâche 7: Afficher les actifs de données et votre flux Data Refinery dans votre projet.
Ce tutoriel dure environ 30 minutes.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Tâche 1: Ouvrir un projet
Vous avez besoin d'un projet pour stocker les données et le flux Data Refinery. Vous pouvez utiliser un projet existant ou créer un projet.
Dans le menu de navigation " , choisissez Projets > Afficher tous les projets
Ouvrir un projet existant. Si vous souhaitez utiliser un nouveau projet:
Cliquez sur Nouveau projet.
Sélectionnez Créer un projet vide.
Entrez un nom et une description facultative pour le projet.
Choisissez une instance de service object storage existante ou crée en une nouvelle.
Cliquez sur Créer.
Vérifier votre progression
L'image suivante montre un nouveau projet vide.
Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.
Tâche 2: Ouvrir le jeu de données dans Data Refinery
Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:05.
Procédez comme suit pour ajouter un actif de données à votre projet et créer un flux Data Refinery . L'ensemble de données que vous utiliserez dans ce tutoriel est disponible dans le concentrateur de ressources.
Accédez aux données sur les compagnies aériennes dans le centre de ressources.
Cliquez sur Ajouter au projet.
Sélectionnez votre projet dans la liste et cliquez sur Ajouter.
Une fois le fichier ajouté, cliquez sur Afficher le projet.
Pour plus d'informations sur l'ajout d'un actif de données à partir du concentrateur de ressources à un projet, voir Chargement et accès aux données dans un bloc-notes.
Dans l'onglet Actifs , cliquez sur l'actif de données airline-data.csv pour prévisualiser son contenu.
Cliquez sur Préparer les données pour ouvrir un échantillon du fichier dans Data Refineryet attendez que Data Refinery lise et traite un échantillon des données.
Fermez les panneaux Informations et Etapes .
Vérifier votre progression
L'image suivante montre l'actif de données de compagnie aérienne ouvert dans Data Refinery.
Tâche 3: Vérifier les données à l'aide de profils et de visualisations
Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:47.
Le contenu d'un actif est automatiquement profilé et classé en fonction des valeurs de ces colonnes. Suivez ces étapes pour utiliser les onglets Profil et Visualisations pour explorer les données.
Cliquez sur l'onglet Profil pour consulter la distribution de fréquences des données afin de trouver les valeurs extrêmes.
Faites défiler les colonnes pour afficher les statistiques de chaque colonne. Les statistiques montrent l'écart interquartile, le minimum, le maximum, la médiane et l'écart type dans chaque colonne.
Placez le pointeur de la souris sur une barre pour afficher des détails supplémentaires.
L'image suivante montre l'onglet Profil :
'Cliquez sur l'onglet Visualisations.
Sélectionnez la colonne Transporteur à visualiser. Un point bleu apparaît en regard des icônes des graphiques suggérés.
Cliquez sur le graphique Graphique circulaire . Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données.
Vérifier votre progression
L'image suivante montre l'onglet Visualisations. Vous êtes maintenant prêt à affiner les données.
Tâche 4: Affiner les données
Opérations Data Refinery
Data Refinery utilise deux types d'opérations pour affiner les données, les opérations d'interface graphique et les opérations de codage. Vous allez utiliser les deux types d'opérations dans ce tutoriel.
Les opérations d'interface graphique peuvent comporter plusieurs étapes. Sélectionnez une opération dans Nouvelle étape. Un sous-ensemble des opérations de l'interface graphique est également disponible dans le menu de débordement de chaque colonne ().
Lorsque vous ouvrez un fichier dans Data Refinery, l'opération Convertir le type de colonne est automatiquement appliquée comme première étape pour convertir des types de données non-chaîne en types de données déduits (par exemple, vers un nombre entier, Date, Booléen, etc.). Vous pouvez annuler ou éditer cette étape.
Les opérations de codage sont des modèles (templates) interactifs pour les opérations de codage, fonctions et opérateurs logiques. La plupart des opérations disposent d'une aide interactive. Cliquez sur le nom de l'opération dans la zone de saisie de la de ligne de commande pour afficher les opérations de codage et leurs options de syntaxe.
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:16.
Le rffinement des données est une série d'étapes pour la génération d'un flux de Data Refinery. A mesure que vous parcourez cette tâche, affichez le panneau Etapes pour suivre votre progression. Vous pouvez sélectionner une étape pour la supprimer ou l'éditer. Si vous faites une erreur, vous pouvez également cliquer sur l'icône d'annulation " . Pour affiner les données, procédez comme suit:
Revenez à l'onglet Données.
Sélectionnez la colonne Année. Cliquez sur le menu débordement () et choisissez Trier par ordre décroissant.
Cliquez sur Etapes pour afficher la nouvelle étape dans le panneau Etapes .
Concentrez-vous sur les retards pour une compagnie aérienne spécifique. Ce tutoriel utilise United Airlines (UA), mais vous pouvez choisir n'importe quelle compagnie aérienne.
Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Filtrer.
Choisissez la colonne Transporteur unique.
Pour Opérateur, choisissez Est égal à.
Pour Valeur, entrez la chaîne de la compagnie pour laquelle vous souhaitez voir les informations de retard. Par exemple, "
UA
.
'Cliquez sur Appliquer. Faites défiler la colonne vers la colonne Transporteur pour afficher les résultats.
Créez une colonne qui additionne les retards au départ et à l'arrivée.
Sélectionnez la colonne DepDelay .
Notez que l'opération Convertir le type de colonne a été automatiquement appliquée en tant que première étape pour convertir les types de données de chaîne dans toutes les colonnes dont les valeurs sont des nombres à des types de données entier.
Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Calculer.
Pour l'opérateur, choisissez Ajout.
Sélectionnez Colonne, puis choisissez la colonne ArrDelay .
Sélectionnez Créer une nouvelle colonne pour des résultats.
Pour le nom de la nouvelle colonne, tapez '
TotalDelay
.
'Vous pouvez positionner la nouvelle colonne à la fin de la liste des colonnes ou à côté de la colonne d'origine. Dans ce cas, sélectionnez Suivant la colonne d'origine.
Cliquez sur Appliquer. La nouvelle colonne, TotalDelay, est ajoutée.
Déplacez la nouvelle colonne Retard total vers le début du fichier :
Dans la zone de texte de ligne de commande, choisissez l'opération Sélectionner.
Cliquez sur le mot select, puis choisissez select(`
<column>
`, everything()).Cliquez sur
`<column>`
, puis sélectionnez la colonne Retard total. Lorsque vous avez terminé, la commande doit se présenter comme suit :select(`TotalDelay`, everything())
Cliquez sur Appliquer. La colonne Retard total est maintenant la première colonne.
Réduisez les données à quatre colonnes: Année, Mois, Jour du moiset Retard total. Utilisez l'opération de codage Group_by pour diviser les colonnes en groupes d'année, de mois et de jour.
Dans la zone de texte de ligne de commande, choisissez l'opération Group_by.
Cliquez sur
<column>
, puis sélectionnez la colonne Année.Avant la parenthèse fermante, entrez :
,Month,DayofMonth
. Lorsque vous avez terminé, la commande doit se présenter comme suit :group_by(`Year`,Month,DayofMonth)
Cliquez sur Appliquer.
Utilisez l'opération de codage Sélectionner pour la colonne Retard total. Dans la zone de texte de ligne de commande, sélectionnez l'opération Sélectionner.
Cliquez sur<column>
et choisissez la colonne Retard total. La commande doit se présenter comme suit :select(`TotalDelay`)
Cliquez sur Appliquer. La forme des données se composent maintenant des colonnes Année, Mois, Jour du mois et Retard total.
L'image suivante montre les quatre premières lignes de données.
'
Affichez la moyenne des valeurs de la colonne TotalDelay et créez une nouvelle colonne AverageDelay :
Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Agréger.
Pour la Colonne, sélectionnez TotalDelay.
Pour Opérateur, sélectionnez Moyenne.
Pour le nom de la colonne agrégée, tapez "
AverageDelay
.
'Cliquez sur Appliquer.
La nouvelle colonne AverageDelay correspond à la moyenne de tous les temps d'attente.
Vérifier votre progression
L'image suivante montre les quatre premières lignes des données.
Tâche 5: Exécuter un travail pour le flux Data Refinery
Pour prévisualiser cette tâche, regardez la vidéo à partir de 04:16.
Lorsque vous exécutez un travail pour le flux Data Refinery, les étapes sont exécutées sur la totalité du jeu de données. Vous sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. La sortie du flux Data Refinery est ajoutée aux actifs de données du projet. Procédez comme suit pour exécuter un travail afin de créer le fichier affiné.
Dans la barre d'outils de Data Refinery, cliquez sur l'icône Jobs, puis sélectionnez Save and create a job.
Entrez un nom et une description pour le travail, puis cliquez sur Suivant.
Sélectionnez un environnement d'exécution et cliquez sur Suivant.
(Facultatif) Cliquez sur le bouton à bascule pour planifier une exécution. Indiquez la date, l'heure et si vous souhaitez que le travail se répète, puis cliquez sur Suivant.
(Facultatif) Activez les notifications pour ce travail, puis cliquez sur Suivant.
Examinez les détails, puis cliquez sur Créer et exécuter pour lancer le travail immédiatement.
Lorsque le travail est créé, cliquez sur le lien Détails du travail dans la notification pour afficher le travail dans votre projet. Vous pouvez également accéder à l'onglet Travaux du projet et cliquer sur le nom du travail pour l'ouvrir.
Lorsque le Statut du travail est Terminé, utilisez la trace de navigation du projet pour revenir à l'onglet Actifs du projet.
Cliquez sur la section Données > Actifs de données pour afficher la sortie du flux Data Refinery , airline-data_shaped.csv.
Cliquez sur la section Flux > Data Refinery pour afficher le flux Data Refinery , airline-data.csv_flow.
Vérifier votre progression
L'image suivante montre l'onglet Actifs avec le flux Data Refinery et l'actif mis en forme.
Tâche 6: Créer un autre actif de données à partir du flux Data Refinery
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:26.
Procédez comme suit pour affiner davantage le jeu de données en éditant le flux Data Refinery :
Cliquez sur airline-data.csv_flow pour ouvrir le flux dans Data Refinery.
Triez la colonne AverageDelay par ordre décroissant.
Sélectionnez la colonne AverageDelay .
Cliquez sur le menu de la colonne Débordement (), puis sélectionnez Trier par ordre décroissant.
Cliquez sur l'icône des paramètres de flux " .
Cliquez sur le panneau Ensemble de données cible .
Cliquez sur Editer les propriétés.
Dans la boîte de dialogue Propriétés de la cible de format, modifiez le nom de la ressource de données en "
airline-data_sorted_shaped.csv
.
'Cliquez sur Sauvegarder pour revenir aux paramètres de flux.
Cliquez sur Appliquer pour sauvegarder les paramètres.
Dans la barre d'outils de Data Refinery, cliquez sur l'icône Jobs et sélectionnez Save and view jobs.
'Sélectionnez le travail pour les données d'entreprise, puis cliquez sur Afficher.
Dans la barre d'outils de la fenêtre de travail, cliquez sur l'icône Exécuter le travail.
'
Vérifier votre progression
L'image suivante montre les détails du travail terminé.
Tâche 7: Afficher les actifs de données et votre flux Data Refinery dans votre projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 06:40.
A présent, procédez comme suit pour afficher les trois actifs de données: l'actif d'origine, le premier ensemble de données affiné et le deuxième ensemble de données affiné:
Une fois le travail terminé, accédez à la page du projet.
Cliquez sur l'onglet Actifs.
Dans la section Actifs de données, vous verrez l'ensemble de données d'origine que vous avez téléchargé et la sortie des deux flux Data Refinery.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Cliquez sur l'actif de données Airline-data_csv_façonner pour voir le retard moyen non trié. Revenez à l'onglet Actifs .
Cliquez sur l'actif de données airline-data_sorted_shaped.csv pour voir le retard moyen trié par ordre décroissant. Revenez à l'onglet Actifs .
Cliquez sur la section Flux > Data Refinery pour afficher le flux Data Refinery :
airline-data.csv_flow
.
Vérifier votre progression
L'image suivante montre l'onglet Actifs avec tous les actifs affichés.
Etapes suivantes
Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :
Autres ressources
Afficher plus de vidéos pour Raffinerie de données.
Vous trouverez des exemples d'ensembles de données pour acquérir une expérience pratique de l'affinage des données dans le centre de ressources.
Essayez ce tutoriel supplémentaire pour Data Refinery: Collectez, nettoyez et améliorez vos données '.
Rubrique parent: Tutoriels de démarrage rapide