Démarrage rapide : Affinage des données

Vous pouvez économiser du temps de préparation des données en transformant rapidement de grandes quantités de données brutes en informations consommables de haute qualité prêtes pour l'analyse. Lisez à propos de l'outil Data Refinery, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants pour lequel vous n'avez pas besoin de coder.

Votre flux de travaux de base inclut les tâches suivantes :

  1. Créez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
  3. Ouvrez les données dans Data Refinery.
  4. Effectuez les étapes à l'aide des opérations permettant d'affiner les données.
  5. Créez et exécutez un travail pour transformer les données.

En savoir plus sur Data Refinery

Utilisez Data Refinery pour nettoyer et mettre en forme les données tabulaires à l'aide d'un éditeur de flux graphique. Vous pouvez également utiliser des modèles interactifs pour coder des opérations, des fonctions et des opérateurs logiques. Lorsque vous nettoyez des données, vous corrigez ou supprimez les données incorrectes, incomplètes, mal formatées ou en double. Lorsque vous mettez en forme des données, vous les personnalisez en filtrant, en triant, en combinant ou en supprimant des colonnes et en exécutant des opérations.

Vous pouvez créer un flux Data Refinery sous la forme d'un ensemble d'opérations ordonnées sur des données. Data Refinery inclut une interface graphique pour profiler vos données en vue de leur validation et plus de 20 graphiques personnalisables qui vous donnent une perspective et un aperçu de vos données. Lorsque vous sauvegardez le jeu de données affiné, vous le chargez généralement dans un emplacement différent de celui où vous l'avez lu. Ainsi, vos données source ne sont pas modifiées par le processus d'affinage.

En savoir plus sur le raffinage de données

Regarder une vidéo sur l'affinage des données

Regarder une vidéo Regardez cette vidéo pour savoir comment affiner les données.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

  • Durée Retranscription
    00:00 Cette vidéo vous montre comment former des données brutes à l'aide de Data Refinery.
    00:05 Pour commencer à affiner les données d'un projet, affichez l'actif de données et ouvrez-le dans Data Refinery.
    00:14 La sous-fenêtre Détails contient le nom du flux de données et de la sortie de flux de données une fois que vous avez terminé d'affiner les données.
    00:21 La sous-fenêtre d'aide fournit une aide contextuelle pour l'élément actuellement mis en évidence, au fur et à mesure que vous travaillez pour affiner les données.
    00:31 L'onglet Données vous montre un ensemble d'exemples de lignes et de colonnes dans le fichier.
    00:36 Pour améliorer les performances, vous ne verrez pas toutes les lignes de le modélisateur.
    00:40 Mais soyez assuré que lorsque vous affinez les données, le flux de données sera exécuté sur l'ensemble de données complet.
    00:48 L'onglet Profil affiche les statistiques de fréquence et de récapitulatif pour chacune de vos colonnes.
    00:56 L'onglet Visualisations fournit des visualisations de données pour les colonnes qui vous intéressent.
    01:03 Vous pouvez spécifier le type de graphique et modifier les options de graphique pour mieux visualiser les données.
    01:14 Les icônes de droite vous permettent de sauvegarder le graphique en tant qu'image, de restaurer le graphique et d'effectuer un zoom avant et arrière.
    01:23 Les icônes de la section Actions vous permettent de démarrer, d'afficher des libellés de données dans le graphique, de télécharger les détails du graphique ou l'image du graphique et de modifier les préférences.
    01:38 Maintenant, faisons de la préparation de données.
    01:40 Commencez par une opération simple, comme le tri dans la colonne spécifiée - dans ce cas, la colonne Année.
    01:48 Supposons que vous souhaitez vous concentrer sur les retards pour une compagnie aérienne spécifique, vous pouvez donc filtrer les données pour n'afficher que les lignes où le transporteur unique est United Airlines.
    02:04 Il serait utile de voir le retard total.
    02:06 Vous pouvez le faire en créant une nouvelle colonne pour combiner les retards d'arrivée et de départ.
    02:13 Notez que le type de colonne est considéré comme un entier.
    02:18 Sélectionnez la colonne de retard d'arrivée et utilisez l'opération Calculer.
    02:25 Dans ce cas, vous allez ajouter un délai de départ à la colonne sélectionnée et créer une colonne appelée " Retard Total ".
    02:38 La nouvelle colonne s'affiche à la fin de la liste des colonnes.
    02:43 Si vous faites une erreur, ou si vous décidez de faire une modification, accédez simplement au flux de données et supprimez cette étape.
    02:51 Cela annulera cette opération particulière.
    02:55 Vous pouvez également utiliser les boutons de rétablissement et d'annulation.
    02:59 Ensuite, vous souhaitez vous concentrer sur la colonne Retard Total pour que vous puissiez utiliser l'opération de sélection pour déplacer la colonne vers le début.
    03:09 Cette commande permet d'organiser la colonne Retard Total en tant que première dans la liste, et tout le reste après.
    03:19 Ensuite, utilisez l'opération group_by pour diviser les données en groupes par année, mois et jour.
    03:30 Ainsi, lorsque vous sélectionnez la colonne Retard Total, vous verrez les colonnes Années, Mois, Jour et Retard Total.
    03:40 Enfin, vous souhaitez trouver la moyenne de la colonne Retard Total.
    03:44 Lorsque vous développez le menu Opérations, dans la section Organiser, vous trouverez l'opération d'agrégation, qui inclut la fonction moyenne.
    04:01 Vous avez maintenant une nouvelle colonne, appelée " retard ", qui représente la moyenne du retard total.
    04:10 Maintenant, pour exécuter le flux de données, enregistrez et créez un travail.
    04:17 Indiquez un nom pour le travail et passez à l'écran suivant.
    04:21 L'étape Configurer vous permet d'examiner l'entrée et la sortie de votre exécution de travail.
    04:29 La planification d'un travail est facultative, mais vous pouvez définir une date et répéter le travail, si vous le souhaitez.
    04:38 Tout semble correct, donc créez et exécutez le travail.
    04:42 Cela peut prendre plusieurs minutes, car n'oubliez pas que le flux de données sera exécuté sur l'ensemble complet des données.
    04:49 Dans l'intervalle, vous pouvez afficher le statut.
    04:53 Une fois l'exécution terminée, vous pouvez revenir à l'onglet Actifs et ouvrir le flux Data Refinery pour affiner les données.
    05:05 Par exemple, vous pouvez trier la colonne de retard par ordre décroissant.
    05:11 Maintenant, éditez les détails.
    05:14 Vous pouvez spécifier un autre emplacement, tel qu'une source de données externe, et modifier le nom du flux de données ou modifier le nom du flux Data Refinery.
    05:31 Maintenant, exécutez à nouveau le flux de données, mais cette fois, enregistrez et affichez les travaux.
    05:38 Sélectionnez le travail que vous souhaitez afficher dans la liste et exécutez le travail.
    05:48 Une fois l'exécution terminée, revenez au projet et dans l'onglet Actifs, vous verrez les trois fichiers :
    05:58 L'original.
    06:01 Le premier jeu de données raffiné, montrant le retard moyen non trié.
    06:07 Et le deuxième ensemble de données, montrant la colonne de retard triée par ordre décroissant.
    06:16 Et en dessous, vous verrez le flux de données.
    06:23 Trouvez d'autres vidéos dans la documentation de Cloud Pak for Data as a Service.

Essayer un tutoriel pour affiner des données

Dans ce tutoriel, vous :

  • Créez un projet.
  • Charger des données dans le projet.
  • Ouvrir le fichier dans Data Refinery.
  • Consulter les données avec un profil et des visualisations.
  • Exécuter un travail pour le flux Data Refinery.
  • Créer un autre actif de données à partir du flux Data Refinery.
  • Afficher les actifs de données et le flux Data Refinery dans votre projet.

Ce tutoriel dure environ 30 minutes.

Etape 1 : Création d'un projet

Vous avez besoin d'un projet pour stocker les données et le flux Data Refinery.

  1. Si vous avez un projet existant, ouvrez-le. Si vous ne disposez pas d'un projet existant, cliquez sur Créer un projet sur la page d'accueil ou sur Nouveau projet sur votre page Projets.
  2. Sélectionnez Créer un projet vide.
  3. Dans l'écran Créer un projet, ajoutez un nom et une description facultative pour le projet.
  4. Choisissez une instance de service de stockage d'objets existant ou créez-en une nouvelle.

  5. Cliquez sur Créer.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.

Etape 2 : Ouverture du fichier dans Data Refinery

Procédez comme suit pour créer un flux Data Refinery.

Suivez ces étapes pour utiliser les onglets Profil et Visualisations pour explorer les données.

  1. Cliquez sur l'onglet Profil pour vérifier la distribution de fréquence des données afin de trouver les valeurs éloignées. Les statistiques montrent l'écart interquartile, le minimum, le maximum, la médiane et l'écart type dans chaque colonne.
  2. Cliquez sur l'onglet Visualisations. Sélectionnez la colonne Transporteur à visualiser. Un point bleu apparaît en regard des icônes des graphiques suggérés. Cliquez sur l'icône Graphique circulaire pour visualiser les données. Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données.

Astuce : utilisez les pages Profil et Visualisations pour afficher les modifications des données au fur et à mesure que vous les affinez.

Etape 4 : Affinage des données

Data Refinery utilise deux types d'opérations pour affiner les données, les opérations d'interface graphique et les opérations de codage. Vous allez utiliser les deux types d'opérations dans ce tutoriel. Le rffinement des données est une série d'étapes pour la génération d'un flux de Data Refinery. Au cours de ce tutoriel, affichez le panneau Étapes pour suivre votre progression. Vous pouvez sélectionner une étape pour la supprimer ou l'éditer. Si vous faites une erreur, vous pouvez également cliquer sur l'icône Annuler Icône Annuler.

  1. Revenez à l'onglet Données.
  2. Sélectionnez la colonne Année. Cliquez sur le menu Actions (Actions icône trois points verticaux) et choisissez Tri décroissant.
  3. Cliquez sur Étapes pour afficher le panneau Étapes.
  4. Concentrez-vous sur les retards pour une compagnie aérienne spécifique. Ce tutoriel utilise United Airlines (UA), mais vous pouvez choisir n'importe quelle compagnie aérienne.
    1. Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Filtrer.
    2. Choisissez la colonne Transporteur unique.
    3. Pour Opérateur, choisissez Est égal à.
    4. Pour Valeur, entrez la chaîne de la compagnie pour laquelle vous souhaitez voir les informations de retard. Par exemple, UA.
    5. Cliquez sur Apply. Faites défiler la colonne vers la colonne Transporteur pour afficher les résultats.
  5. Créez une colonne qui additionne les retards au départ et à l'arrivée.
    1. Sélectionnez la colonne Retard.
    2. Notez que l'opération Convertir le type de colonne a été automatiquement appliquée en tant que première étape pour convertir les types de données de chaîne dans toutes les colonnes dont les valeurs sont des nombres à des types de données entier.
    3. Cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Calculer.
    4. Pour l'opérateur, choisissez Ajout.
    5. Sélectionnez Colonne, puis choisissez la colonne DepDelay.
    6. Sélectionnez Créer une colonne pour les résultats.
    7. Pour le nouveau nom de colonne, entrez TotalDelay.
    8. Cliquez sur Apply. La nouvelle colonne, Retard total, est ajoutée à la fin de la liste des colonnes.
  6. Déplacez la nouvelle colonne Retard total vers le début du fichier :
    1. Dans la zone de texte de ligne de commande, choisissez l'opération Sélectionner.
    2. Cliquez sur le mot Sélectionner, puis choisissez sélectionner (\ `<column>\ `, tout ()).
    3. Cliquez sur `<column>`, puis sélectionnez la colonne Retard total. Lorsque vous avez terminé, la commande doit se présenter comme suit :
      select(`TotalDelay`, everything())
      
    4. Cliquez sur Apply. La colonne Retard total est maintenant la première colonne.
  7. Réduisez les données à quatre colonnes: Année, Mois, Jour du moiset Retard total. Utilisez l'opération de codage Group_by pour diviser les colonnes en groupes d'année, de mois et de jour.
    1. Dans la zone de texte de ligne de commande, choisissez l'opération Group_by.
    2. Cliquez sur <column>, puis sélectionnez la colonne Année.
    3. Avant la parenthèse fermante, entrez : ,Month,DayofMonth. Lorsque vous avez terminé, la commande doit se présenter comme suit :
      group_by(`Year`,Month,DayofMonth)
      
    4. Cliquez sur Apply.
    5. Utilisez l'opération de codage Sélectionner pour la colonne Retard total. Dans la zone de texte de ligne de commande, sélectionnez l'opération Sélectionner.
      Cliquez sur <column> et choisissez la colonne Retard total. La commande doit se présenter comme suit :
      select(`TotalDelay`)
      
    6. Cliquez sur Apply. La forme des données se composent maintenant des colonnes Année, Mois, Jour du mois et Retard total.
  8. Affichez la moyenne des valeurs de la colonne Retard total et créez une colonne Retard :
    1. Assurez-vous que la colonne Retard total est sélectionnée, puis cliquez sur Nouvelle étape, puis choisissez l'opération d'interface graphique Agrégat.
    2. Pour AGRÉGATION 1, sélectionnez Moyenne.
    3. Pour le nom de la colonne agrégée, entrez delay.
    4. Cliquez sur Apply. La nouvelle colonne Retard correspond à la moyenne de tous les temps de retard.

Etape 5 : Exécution d'un travail pour le flux Data Refinery

Lorsque vous exécutez un travail pour le flux Data Refinery, les étapes sont exécutées sur la totalité du jeu de données. Vous sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. La sortie du flux Data Refinery est ajoutée aux actifs de données du projet.

  1. Dans la barre d'outils de Data Refinery, cliquez sur l'icône de travaux, puis sélectionnez Enregistrer et créer un travail.
  2. Entrez un nom et une description pour le travail, puis cliquez sur Suivant.
  3. Sélectionnez un environnement d'exécution et cliquez sur Suivant.
  4. (Facultatif) Cliquez sur le bouton à bascule pour planifier une exécution. Indiquez la date, l'heure et si vous souhaitez que le travail se répète, puis cliquez sur Suivant.
  5. (Facultatif) Activez les notifications pour ce travail, puis cliquez sur Suivant.
  6. Passez en revue les détails et cliquez sur Créer et exécuter pour exécuter le travail immédiatement.
  7. Lorsque le travail est créé, cliquez sur le lien Détails du travail dans la notification pour afficher le travail dans votre projet. Vous pouvez également accéder à l'onglet Travaux du projet et cliquer sur le nom du travail pour l'ouvrir.
  8. Lorsque le statut du travail passe à Terminé, utilisez l'élément de navigation du projet pour revenir à l'onglet Actifs du projet. Dans la section Actifs de données, vous verrez la sortie du flux Data Refinery, airline-data_shaped.csv.Dans la section Flux Data Refinery, le nom par défaut du flux Data Refinery est airline-data.csv_flow.

Etape 6 : Création d'un autre actif de données à partir du flux Data Refinery

Affiner davantage le jeu de données en modifiant le flux de Data Refinery.

  1. Cliquez pour ouvrir airline-data.csv_flow. Le flux s'ouvre dans Data Refinery.
  2. Triez la colonne Retard par ordre décroissant.
    1. Sélectionnez la colonne Retard.
    2. Cliquez sur le menu Actions de la colonne (Actions icône trois points verticaux), puis sélectionnez Tri décroissant.
  3. Dans la sous-fenêtre Détails, cliquez sur Éditer.
  4. Dans la sous-fenêtre SORTIE DE FLUX DE DATA REFINERY , cliquez sur Éditer la sortie. Remplacez NOM DE FICHIER par : airline-data_sorted_shaped.csv
  5. Cliquez sur le coche pour enregistrer le changement.
  6. Cliquez sur Terminé.
  7. Dans la barre d'outils de l'affinerie de données, cliquez sur l'icône Travaux et sélectionnez Enregistrer et afficher les travaux.
  8. Sélectionnez le travail pour les données d'entreprise, puis cliquez sur Afficher.
  9. Dans la barre d'outils de fenêtre de travail, cliquez sur l'icône Exécuter le travail.

Etape 7 : Affichage des actifs de données et du flux Data Refinery dans votre projet

Maintenant, affichez les trois actifs de données, l'original, le premier ensemble de données raffinées et le second ensemble de données raffinées.

  1. Une fois le travail terminé, accédez à la page du projet.
  2. Cliquez sur l'onglet Actifs.
  3. Dans la section Actifs de données, vous verrez l'ensemble de données d'origine que vous avez téléchargé et la sortie des deux flux Data Refinery.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv

    Si vous cliquez sur l'actif de données airline-data_csv_shaped, le délai moyen n'est pas trié. Cliquez sur l'actif de données airline-data_sorted_shaped.csv pour afficher le délai moyen trié par ordre décroissant. La section des flux Data Refinery affiche le flux de Data Refinery : airline-data.csv_flow.

Etapes suivantes

Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :

Autres ressources

Rubrique parent : Initiation à la préparation des données