Pour affiner les données, on les prend à un endroit, on les nettoie et on les met en forme, puis on écrit le résultat à un autre endroit. Vous pouvez nettoyer et façonner des données tabulaires à l'aide d'un outil d'éditeur de flux graphique appelé Data Refinery.
Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous formez des données, vous les personnalisez en filtrant, en triant, en combinant ou en supprimant des colonnes.
Vous créez un Flux Data Refinery en tant qu'ensemble d'opérations ordonnées sur des données. Data Refinery comprend une interface graphique pour profilez vos données pour le valider et plus de 20 tableaux personnalisables qui vous donnent un aperçu de vos données.
- service requis
- watsonx.ai Studio ou IBM Knowledge Catalog
- Format des données
- Avro, CSV, JSON, Microsoft Excel (formats xls et xlsx. Première feuille uniquement, sauf pour les connexions et les actifs de données connectés.), Parquet, SAS avec l'extension "sas7bdat" (lecture seule), TSV (lecture seule) ou actif de données texte délimité
- Tables de sources de données relationnelles
- Taille des données
- N'importe laquelle. Data Refinery fonctionne sur un exemple de sous-ensemble de lignes dans le jeu de données. La taille de l'échantillon est de 1 Mo ou 10 000 lignes, selon la première éventualité. Toutefois, lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée. Si le flux Data Refinery échoue avec un actif de données de grande taille, voir les solutions de contournement dans Traitement des incidents liés à Data Refinery.
Pour plus d'informations sur le choix de l'outil approprié pour vos données et cas d'utilisation, voir Choix d'un outil.
- Prérequis
- Limitations pour un fichier source
- Limitations pour un fichier cible
- Règles de protection des données
- Aperçus du jeu de données
- Affinage de vos données
Prérequis
Avant de pouvoir affiner les données, vous avez besoin de créer un projet qui utilise Cloud Object Storage.
Regardez cette vidéo pour voir comment créer un projet
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Si vous disposez de données dans le nuage ou dans des sources de données sur site, vous devrez soit ajouter des connexions à ces sources, soit ajouter des ressources de données à partir de chaque connexion. Si vous souhaitez pouvoir sauvegarder les données affinées dans des sources de données cloud ou sur site, créez également des connexions à cet effet. Dans Data Refinery, les connexions sources ne peuvent être utilisées que pour lire des données ; les connexions cibles ne peuvent être utilisées que pour écrire des données. Lorsque vous créez une connexion cible, veillez à utiliser les données d'identification ayant une autorisation d'écriture ou vous ne pourrez pas enregistrer votre sortie de flux Data Refinery sur la cible.
Regardez cette vidéo pour voir comment créer une connexion et ajouter des données connectées à un projet
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Limitations pour un fichier source
Fichiers CSV
Assurez-vous que les fichiers CSV sont correctement formatés et respectent les règles suivantes :
- Deux virgules consécutives sur une ligne indiquent une colonne vide.
- Si une ligne se termine par une virgule, une colonne supplémentaire est créée.
Si votre fichier CVS contient une charge utile malveillante (des formules par exemple) dans un champ de saisie, ces éléments peuvent être exécutés.
Les caractères blancs sont considérés comme faisant partie des données
Si vos données incluent des colonnes contenant des caractères blancs (blancs) , Data Refinery considère ces caractères blancs comme faisant partie des données, même si vous ne pouvez pas les voir dans la grille. Certains outils de base de données peuvent remplir des chaînes de caractères avec des caractères blancs pour rendre toutes les données d'une colonne de la même longueur et ce changement affecte les résultats des opérations de Data Refinery qui comparent les données.
Noms de colonnes
Assurez-vous que les noms de colonne respectent les règles suivantes :
- Les noms de colonne en doublon ne sont pas autorisés. Les noms de colonne doivent être uniques dans le jeu de données. Ils ne sont pas sensibles à la casse. Un ensemble de données qui inclut un nom de colonne "Sales" et un autre nom de colonne "sales" ne fonctionne pas.
- Les noms de colonne ne sont pas des mots réservés dans le langage de programmation R.
- Les noms de colonne ne sont pas des nombres. Une solution consiste à placer les noms de colonne entre guillemets ("").
Les ensembles de données comportant des colonnes avec le type de données " Autres " ne sont pas pris en charge dans les flux Data Refinery
Si votre ensemble de données contient des colonnes dont les types de données sont identifiés comme "Autres" dans l'aperçu de watsonx.ai Studio, les colonnes s'afficheront en tant que type de données String dans Data Refinery. Toutefois, si vous essayez d'utiliser les données dans un flux Data Refinery, le travail du flux Data Refinery échoue. Un exemple de type de données qui apparaît comme " Autre " dans l'aperçu est le type de données Db2 DECFLOAT.
Limitations pour un fichier cible
La limitation suivante s'applique si vous sauvegardez la sortie de flux Data Refinery (le jeu de données cible) dans un fichier:
- Vous ne pouvez pas modifier le format de fichier si le fichier est un actif de données existant.
Règles de protection des données
Data Refinery ne prend pas en charge les règles de protection des données pour le filtrage des lignes. Les travaux Data Refinery peuvent échouer si l'actif est régi par des règles de protection des données de filtrage de ligne. De plus, si vous ajoutez un actif d' IBM Knowledge Catalog à un projet régi par des règles de protection des données de filtrage de ligne, le masquage ne sera pas appliqué dans Data Refinery. Pour plus d'informations, voir Application des règles de protection des données.
Aperçus du jeu de données
Data Refinery prend en charge les jeux de données volumineux, qui peuvent être longs et difficiles à affiner. Pour vous permettre de travailler rapidement et efficacement, il fonctionne sur un sous-ensemble de lignes dans le jeu de données tandis que vous affinez les données de façon interactive. Lorsque vous exécutez un travail pour le flux Data Refinery, il s'applique à l'ensemble du jeu de données.
Affinage des données
La vidéo suivante explique comment affiner les données.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Retranscription de la vidéo Heure Transcription 00:00 Cette vidéo vous montre comment former des données brutes à l'aide de Data Refinery. 00:05 Pour commencer à affiner les données d'un projet, affichez l'actif de données et ouvrez-le dans Data Refinery. 00:14 Le panneau "Informations" contient le nom du flux de données et de la sortie du flux de données, une fois que vous avez fini d'affiner les données. 00:23 L'onglet "Données" affiche un exemple d'ensemble de lignes et de colonnes du jeu de données. 00:29 Pour améliorer les performances, vous ne verrez pas toutes les lignes du shaper. 00:33 Mais soyez assuré que lorsque vous affinez les données, le flux de données sera exécuté sur l'ensemble de données complet. 00:41 L'onglet "Profil" affiche la fréquence et les statistiques récapitulatives de chacune de vos colonnes. 00:49 L'onglet "Visualisations" fournit des visualisations de données pour les colonnes qui vous intéressent. 00:57 Un point bleu apparaît en regard des icônes des graphiques suggérés. 01:03 Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données. 01:12 Maintenant, faisons de la préparation de données. 01:17 Commencez par une opération simple, comme le tri sur la colonne spécifiée-dans ce cas, la colonne "Année". 01:27 Dites que vous voulez vous concentrer sur les retards uniquement pour une compagnie aérienne spécifique afin de pouvoir filtrer les données pour n'afficher que les lignes où le transporteur unique est "United Airlines". 01:47 Il serait utile de voir le retard total. 01:50 Vous pouvez le faire en créant une nouvelle colonne pour combiner les retards d'arrivée et de départ. 01:56 Notez que le type de colonne est considéré comme un entier. 02:00 Sélectionnez la colonne Délai de départ et utilisez l'opération "Calculer". 02:09 Dans ce cas, vous ajouterez la colonne du délai d'arrivée à la colonne sélectionnée et créerez une nouvelle colonne, appelée "TotalDelay" 02:23 Vous pouvez positionner la nouvelle colonne à la fin de la liste des colonnes ou à côté de la colonne d'origine. 02:31 Lorsque vous appliquez l'opération, la nouvelle colonne s'affiche en regard de la colonne Délai de départ. 02:38 Si vous faites une erreur, ou décidez simplement de faire une modification, il suffit d'accéder au panneau "Étapes" et de supprimer cette étape. 02:46 Cela annulera cette opération particulière. 02:50 Vous pouvez également utiliser les boutons de rétablissement et d'annulation. 02:56 Ensuite, vous souhaitez vous concentrer sur la colonne "TotalDelay" afin d'utiliser l'opération "select" pour déplacer la colonne au début. 03:09 Cette commande place la colonne "TotalDelay" en tête de liste, et toutes les autres viennent ensuite. 03:21 Ensuite, utilisez l'opération "group_by" pour diviser les données en groupes par année, mois et jour. 03:32 Ainsi, lorsque vous sélectionnez la colonne "TotalDelay", vous verrez les colonnes "Year", "Month", "DayofMonth", et "TotalDelay". 03:44 Enfin, vous souhaitez trouver la moyenne de la colonne "TotalDelay". 03:48 Lorsque vous développez le menu "Opérations", dans la section "Organiser", vous trouverez l'opération "Agréger", qui inclut la fonction "Moyenne". 04:08 Vous disposez maintenant d'une nouvelle colonne, appelée "AverageDelay", qui représente la moyenne du délai total. 04:17 Maintenant, pour exécuter le flux de données et sauvegarder et créer le travail. 04:24 Indiquez un nom pour le travail et passez à l'écran suivant. 04:28 L'étape "Configurer" vous permet de vérifier l'entrée et la sortie de votre exécution de travail. 04:36 Et sélectionnez l'environnement utilisé pour exécuter le travail. 04:41 La planification d'un travail est facultative, mais vous pouvez définir une date et répéter le travail, si vous le souhaitez. 04:51 Vous pouvez également choisir de recevoir des notifications pour ce travail. 04:56 Tout semble correct, donc créez et exécutez le travail. 05:00 Cela peut prendre plusieurs minutes, car n'oubliez pas que le flux de données sera exécuté sur l'ensemble complet des données. 05:06 Dans l'intervalle, vous pouvez afficher le statut. 05:12 Lorsque l'exécution est compétitive, vous pouvez revenir à l'onglet "Actifs" dans le projet. 05:20 Et ouvrez le flux Data Refinery pour affiner davantage les données. 05:28 Par exemple, vous pouvez trier la colonne "AverageDelay" par ordre décroissant. 05:36 A présent, éditez les paramètres de flux. 05:39 Dans le panneau "Général", vous pouvez modifier le nom du flux Data Refinery . 05:46 Dans le panneau "Ensembles de données source", vous pouvez éditer l'exemple ou le format de l'ensemble de données source ou remplacer la source de données. 05:56 Et dans le panneau "Ensemble de données cible", vous pouvez spécifier un autre emplacement, tel qu'une source de données externe. 06:06 Vous pouvez également éditer les propriétés de la cible, telles que le mode d'écriture, le format de fichier et modifier le nom de l'actif de l'ensemble de données. 06:21 Maintenant, exécutez à nouveau le flux de données, mais cette fois, enregistrez et affichez les travaux. 06:28 Sélectionnez le travail que vous souhaitez afficher dans la liste et exécutez le travail. 06:41 Une fois l'exécution terminée, revenez au projet. 06:46 Et dans l'onglet "Actifs", vous verrez les trois fichiers: 06:51 L'original. 06:54 Le premier ensemble de données affiné, montrant le "AverageDelay" non trié. 07:02 Et le deuxième ensemble de données, montrant la colonne "AverageDelay" triée par ordre décroissant. 07:11 Puis, dans l'onglet "Actifs", il y a le flux Data Refinery . 07:19 Trouvez d'autres vidéos dans la documentation de Cloud Pak for Data as a Service.
1. Accéder à Data Refinery à partir d'un projet. Cliquez sur Nouvel actif > Préparer et visualiser les données. Sélectionnez ensuite les données que vous souhaitez utiliser. Sinon, dans l'onglet Actifs d'un projet, cliquez sur un actif de données pour le prévisualiser, puis cliquez sur Préparer les données.
2. Utilisez les étapes pour appliquer des opérations qui nettoient, façonnent et enrichissent vos données. Parcourez les catégories d'opération ou la recherche d'une opération spécifique, puis laissez l'interface utilisateur vous guider. Vous pouvez entrer le code R dans la ligne de commande et laisser la saisie semi-automatique vous aider à obtenir la syntaxe correcte. Lorsque vous appliquez des opérations à un jeu de données, Data Refinery en conserve une trace et génère un flux Data Refinery. Pour chaque opération que vous appliquez, Data Refinery ajoute une étape.
Onglet de données "
"
Si vos données contiennent des types de données non-chaîne, l'opération d'interface graphique deConversion du type de colonne est automatiquement appliquée en tant que première étape du flux Data Refinery lorsque vous ouvrez un fichier dans Data Refinery. Les types de données sont automatiquement convertis en types de données induits, comme Entier, Date ou Booléen. Vous pouvez annuler ou éditer cette étape.
3. Cliquez sur l'onglet Profil pour valider vos données tout au long du processus d'amélioration des données.
Onglet de profil '
'
4. Cliquez sur l'onglet Visualisations pour visualiser les données dans des graphiques. Découvrez les masques, les tendances et les corrélations dans vos données.
Onglet Visualisations '
'
5. Affinez l'exemple de jeu de données en fonction de vos besoins.
6. Cliquez sur Sauvegarder et créer un travail ou sur Sauvegarder et afficher les travaux dans la barre d'outils pour exécuter le flux Data Refinery sur l'ensemble de données. Sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. Pour plus d'informations sur les travaux, voir Création de travaux dans Data Refinery.
Lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée. Ainsi, la tâche peut potentiellement créer un grand ensemble de données de sortie (cible) en fonction des transformations et de la quantité de données traitées dans le flux. Par défaut, le résultat du flux Data Refinery est enregistré en tant que ressource de données dans le projet.
Pour les actions que vous pouvez effectuer lorsque vous affinez vos données, voir Gestion des flux Data Refinery.
Etape suivante
En savoir plus
Rubrique parent: Préparation des données