Pour affiner les données, on les prend à un endroit, on les nettoie et on les met en forme, puis on écrit le résultat à un autre endroit. Vous pouvez nettoyer et façonner des données tabulaires à l'aide d'un outil d'éditeur de flux graphique appelé Data Refinery.
Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous formez des données, vous les personnalisez en filtrant, en triant, en combinant ou en supprimant des colonnes.
Vous créez un Flux Data Refinery en tant qu'ensemble d'opérations ordonnées sur des données. Data Refinery comprend une interface graphique pour profilez vos données pour le valider et plus de 20 tableaux personnalisables qui vous donnent un aperçu de vos données.
- Format des données
- Avro, CSV, JSON, Microsoft Excel (formats xls et xlsx. Première feuille uniquement, sauf pour les connexions et les actifs de données connectés.), Parquet, SAS avec l'extension "sas7bdat" (lecture seule), TSV (lecture seule) ou actif de données texte délimité
- Tables de sources de données relationnelles
- Taille des données
- N'importe laquelle. Data Refinery agit sur un sous-ensemble (échantillon) de lignes du jeu de données. La taille de l'échantillon est de 1 Mo ou 10 000 lignes, selon la première éventualité. Toutefois, lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée. Si le flux Data Refinery échoue avec un actif de données de grande taille, voir les solutions de contournement dans Traitement des incidents liés à Data Refinery.
- Prérequis
- Limitations pour un fichier source
- Limitations pour un fichier cible
- Aperçus du jeu de données
- Affinage de vos données
Prérequis
Pour raffiner des données, vous devez disposer d'un projet qui utilise Cloud Object Storage. Vous pouvez utiliser le projet de bac à sable ou créer un nouveau projet.
Regardez cette vidéo pour voir comment créer un projet
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Si vous disposez de données dans des sources de données en nuage ou sur site, vous devrez soit ajouter des connexions à ces sources, soit ajouter des ressources de données à partir de chaque connexion. Si vous souhaitez pouvoir sauvegarder les données affinées dans des sources de données cloud ou sur site, créez également des connexions à cet effet. Dans Data Refinery, les connexions sources ne peuvent être utilisées que pour lire des données ; les connexions cibles ne peuvent être utilisées que pour écrire des données. Lorsque vous créez une connexion cible, veillez à utiliser les données d'identification ayant une autorisation d'écriture ou vous ne pourrez pas enregistrer votre sortie de flux Data Refinery sur la cible.
Regardez cette vidéo pour voir comment créer une connexion et ajouter des données connectées à un projet
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Limitations pour un fichier source
Fichiers CSV
Assurez-vous que les fichiers CSV sont correctement formatés et respectent les règles suivantes :
- Deux virgules consécutives sur une ligne indiquent une colonne vide.
- Si une ligne se termine par une virgule, une colonne supplémentaire est créée.
Si votre fichier CVS contient une charge utile malveillante (des formules par exemple) dans un champ de saisie, ces éléments peuvent être exécutés.
Les caractères blancs sont considérés comme faisant partie des données
Si vos données incluent des colonnes contenant des caractères blancs (blancs) , Data Refinery considère ces caractères blancs comme faisant partie des données, même si vous ne pouvez pas les voir dans la grille. Certains outils de base de données peuvent remplir des chaînes de caractères avec des caractères blancs pour rendre toutes les données d'une colonne de la même longueur et ce changement affecte les résultats des opérations de Data Refinery qui comparent les données.
Noms de colonnes
Assurez-vous que les noms de colonne respectent les règles suivantes :
- Les noms de colonne en doublon ne sont pas autorisés. Les noms de colonne doivent être uniques dans le jeu de données. Ils ne sont pas sensibles à la casse. Un ensemble de données qui inclut un nom de colonne "Sales" et un autre nom de colonne "sales" ne fonctionne pas.
- Les noms de colonne ne sont pas des mots réservés dans le langage de programmation R.
- Les noms de colonne ne sont pas des nombres. Une solution consiste à placer les noms de colonne entre guillemets ("").
Les ensembles de données comportant des colonnes avec le type de données " Autres " ne sont pas pris en charge dans les flux Data Refinery
Si votre ensemble de données contient des colonnes dont les types de données sont identifiés comme "Autres" dans l'aperçu de watsonx.ai Studio, les colonnes s'afficheront en tant que type de données String dans Data Refinery. Toutefois, si vous essayez d'utiliser les données dans un flux Data Refinery, le travail du flux Data Refinery échoue. Un exemple de type de données qui apparaît comme " Autre " dans l'aperçu est le type de données Db2 DECFLOAT.
Limitations pour un fichier cible
La limitation suivante s'applique si vous sauvegardez la sortie de flux Data Refinery (le jeu de données cible) dans un fichier:
- Vous ne pouvez pas modifier le format de fichier si le fichier est un actif de données existant.
Aperçus du jeu de données
Data Refinery prend en charge les jeux de données volumineux, qui peuvent être longs et difficiles à affiner. Pour vous permettre de travailler rapidement et efficacement, il fonctionne sur un sous-ensemble de lignes dans le jeu de données tandis que vous affinez les données de façon interactive. Lorsque vous exécutez un travail pour le flux Data Refinery, il s'applique à l'ensemble du jeu de données.
Affinage de vos données
La vidéo suivante explique comment affiner les données.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
1. Accéder à Data Refinery à partir d'un projet. Cliquez sur Nouvel actif > Préparer et visualiser les données. Sélectionnez ensuite les données que vous souhaitez utiliser. Sinon, dans l'onglet Actifs d'un projet, cliquez sur un actif de données pour le prévisualiser, puis cliquez sur Préparer les données.
2. Utilisez les étapes pour appliquer des opérations qui nettoient, façonnent et enrichissent vos données. Parcourez les catégories d'opération ou la recherche d'une opération spécifique, puis laissez l'interface utilisateur vous guider. Vous pouvez entrer le code R dans la ligne de commande et laisser la saisie semi-automatique vous aider à obtenir la syntaxe correcte. Lorsque vous appliquez des opérations à un jeu de données, Data Refinery en conserve une trace et génère un flux Data Refinery. Pour chaque opération que vous appliquez, Data Refinery ajoute une étape.
Onglet de données "
"
Si vos données contiennent des types de données non-chaîne, l'opération d'interface graphique deConversion du type de colonne est automatiquement appliquée en tant que première étape du flux Data Refinery lorsque vous ouvrez un fichier dans Data Refinery. Les types de données sont automatiquement convertis en types de données induits, comme Entier, Date ou Booléen. Vous pouvez annuler ou éditer cette étape.
3. Cliquez sur l'onglet Profil pour valider vos données tout au long du processus d'amélioration des données.
Onglet de profil '
'
4. Cliquez sur l'onglet Visualisations pour visualiser les données dans des graphiques. Découvrez les motifs (patterns), les tendances et les corrélations dans vos données.
Onglet Visualisations '
'
5. Affinez l'exemple de jeu de données en fonction de vos besoins.
6. Cliquez sur Sauvegarder et créer un travail ou sur Sauvegarder et afficher les travaux dans la barre d'outils pour exécuter le flux Data Refinery sur l'ensemble de données. Sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. Pour plus d'informations sur les travaux, voir Création de travaux dans Data Refinery.
Lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée. Ainsi, la tâche peut potentiellement créer un grand ensemble de données de sortie (cible) en fonction des transformations et de la quantité de données traitées dans le flux. Par défaut, le résultat du flux Data Refinery est enregistré en tant que ressource de données dans le projet.
Pour les actions que vous pouvez effectuer lorsque vous affinez vos données, voir Gestion des flux Data Refinery.
Étape suivante
En savoir plus
Rubrique parent: Préparation des données