Affinage des données

Pour affiner les données, vous pouvez le prendre à partir d'un emplacement, les nettoyer et les façonner, puis charger le résultat dans un autre emplacement. Vous pouvez nettoyer et façonner des données tabulaires à l'aide d'un outil d'éditeur de flux graphique appelé Data Refinery.

Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous formez des données, vous les personnalisez en filtrant, en triant, en combinant ou en supprimant des colonnes.

Vous créez un Flux Data Refinery en tant qu'ensemble d'opérations ordonnées sur des données. Data Refinery comprend une interface graphique pour profilez vos données pour le valider et plus de 20 tableaux personnalisables qui vous donnent un aperçu de vos données.

Service requis Watson Studio or Watson Knowledge Catalog

Format de données Avro, CSV, JSON, Parquet, SAS avec l'extension "sas7bdat" (lecture seule), TSV (lecture seule) ou un actif de données de texte délimitéTableaux dans les sources de données relationnelles

Taille des données Tout. Data Refinery fonctionne sur un exemple de sous-ensemble de lignes dans le jeu de données. La taille de l'échantillon est de 1 Mo ou 10 000 lignes, selon la première éventualité. Toutefois, lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée.

Pour plus d'informations sur le choix de l'outil approprié pour vos données et cas d'utilisation, voir Choix d'un outil.

Prérequis

Avant de pouvoir affiner les données, vous avez besoin de créer un projet qui utilise Cloud Object Storage.

Regardez cette vidéo pour voir comment créer un projet.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

Si vous avez des données dans un cloud ou des sources de données sur site, vous aurez besoin d'ajouter des connexions à ces sources et vous aurez besoin d'ajouter des actifs de données pour chaque connexion. Si vous souhaitez pouvoir sauvegarder les données affinées dans des sources de données cloud ou sur site, créez également des connexions à cet effet. Les connexions source ne peuvent être utilisées que pour lire des données ; les connexions cible ne peuvent être utilisées que pour charger (sauvegarder) des données. Lorsque vous créez une connexion cible, veillez à utiliser les données d'identification ayant une autorisation d'écriture ou vous ne pourrez pas enregistrer votre sortie de flux Data Refinery sur la cible.

Regardez cette vidéo pour voir comment créer une connexion et ajouter les données connectées à un projet.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

Limitations pour un fichier source

Fichiers CSV

Assurez-vous que les fichiers CSV sont correctement formatés et respectent les règles suivantes :

  • Les fichiers ne peuvent pas contenir de lignes qui se terminent par des valeurs NULL et certaines colonnes qui contiennent des valeurs entre guillemets.
  • Deux virgules consécutives sur une ligne indiquent une colonne vide.
  • Si une ligne se termine par une virgule, une colonne supplémentaire est créée.

Les caractères blancs sont considérés comme faisant partie des données

Si vos données incluent des colonnes contenant des caractères blancs (blancs) , Data Refinery considère ces caractères blancs comme faisant partie des données, même si vous ne pouvez pas les voir dans la grille. Certains outils de base de données peuvent remplir des chaînes de caractères avec des caractères blancs pour rendre toutes les données d'une colonne de la même longueur et ce changement affecte les résultats des opérations de Data Refinery qui comparent les données.

Noms de colonne

Assurez-vous que les noms de colonne respectent les règles suivantes :

  • Les noms de colonne en doublon ne sont pas autorisés. Les noms de colonne doivent être uniques dans le jeu de données. Ils ne sont pas sensibles à la casse. Un ensemble de données comprenant un nom de colonne " Ventes " et un autre nom de colonne " ventes " ne fonctionnent pas.
  • Les noms de colonne ne sont pas des mots réservés pour R.
  • Les noms de colonne ne sont pas des nombres. Une solution consiste à placer les noms de colonne entre guillemets ("").

Les ensembles de données comportant des colonnes avec le type de données " Autres " ne sont pas pris en charge dans les flux Data Refinery

Si votre fichier contient des colonnes dont les types de données sont identifiés comme " Autres " dans l'aperçu Watson Studio, les colonnes s'affichent en tant que type de données de chaîne dans Data Refinery. Toutefois, si vous essayez d'utiliser les données dans un flux Data Refinery, le travail du flux Data Refinery échoue. Un exemple de type de données qui apparaît comme " Autre " dans l'aperçu est le type de données Db2 DECFLOAT.

Limitations pour un fichier cible

{: #limittarget}Les limitations suivantes s'appliquent si vous sauvegardez la sortie du flux Data Refinery (jeu de données cible) dans un fichier :

  • Vous ne pouvez pas prévisualiser le fichier à partir de la page des détails du flux de Data Refinery.
  • Vous ne pouvez pas modifier le format de fichier si le fichier est un actif de données existant.

Aperçus du jeu de données

Data Refinery prend en charge les jeux de données volumineux, qui peuvent être longs et difficiles à affiner. Pour vous permettre de travailler rapidement et efficacement, il fonctionne sur un sous-ensemble de lignes dans le jeu de données tandis que vous affinez les données de façon interactive. Lorsque vous exécutez un travail pour le flux Data Refinery, il s'applique à l'ensemble du jeu de données.

Affinage de vos données

La vidéo suivante explique comment affiner les données.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

1. Accédez à Data Refinery à partir d'un projet. Cliquez sur Nouvel actif, puis choisissez flux Data Refinery. Ensuite, sélectionnez les données avec lesquelles vous voulez travailler. Sinon, à partir de l'onglet Actifs d'une page de projet, vous pouvez effectuer l'une des actions suivantes :

  • Sélectionnez Affiner dans le menu d'un actif de données de texte Avro, CSV, JSON, Parquet, TSV ou texte délimité.
  • Cliquez sur un actif de données de texte Avro, CSV, JSON, Parquet, TSV ou délimité pour la prévisualiser en premier, puis cliquez sur le lien Affiner
  • Si vous disposez déjà d'un flux Data Refinery, cliquez sur Nouveaux flux Data Refinery dans la section flux Data Refinery, puis sur Sélectionner les données avec lequel vous souhaitez travailler.

Astuce : Si vos données ne s'affichent pas sous forme de tableau, accédez à l'onglet Données. Faites défiler vers le bas jusqu'à l'information SOURCE FILE. Cliquez sur l'icône " Spécifier le format de données ". Pour plus d'informations, voir spécifier le format de votre source de données.

2. Utilisez les étapes pour appliquer des opérations de nettoyage, de forme et d'enrichissement de vos données. Parcourez les catégories d'opération ou la recherche d'une opération spécifique, puis laissez l'interface utilisateur vous guider. Vous pouvez entrer le code R dans la ligne de commande et laisser la saisie semi-automatique vous aider à obtenir la syntaxe correcte. Lorsque vous appliquez des opérations à un jeu de données, Data Refinery en conserve une trace et génère un flux Data Refinery. Pour chaque opération que vous appliquez, Data Refinery ajoute une étape.

Onglet Données
Onglet Données

Si vos données contiennent des types de données non-chaîne, l'opération d'interface graphique deConversion du type de colonne est automatiquement appliquée en tant que première étape du flux Data Refinery lorsque vous ouvrez un fichier dans Data Refinery. Les types de données sont automatiquement convertis en types de données induits, comme Entier, Date ou Booléen. Vous pouvez annuler ou éditer cette étape.

3. Cliquez sur l'onglet Profil pour valider vos données tout au long du processus de raffinement des données.

Onglet Profil
Onglet Profil

4. Cliquez sur l'onglet Visualisations pour visualiser les données dans les graphiques. Découvrez les masques, les tendances et les corrélations dans vos données.

Onglet Visualisations
Onglet Visualisations

5. Affinez l'exemple de jeu de données en fonction de vos besoins.

6. Facultatif : dans l'onglet Détails de la sous-fenêtre Informations, cliquez sur le bouton Éditer pour modifier les détails du flux Data Refinery et les informations et l'emplacement du fichier de sortie.

Dans la sous-fenêtre DÉTAILS DU FLUX DATA REFINERY, cliquez sur l'icône Éditer pour modifier le nom et la description du flux Data Refinery. Par défaut, Data Refinery utilise le nom de la source de données pour nommer le flux Data Refinery et le jeu de données cible. Vous pouvez modifier ces noms, mais vous ne pouvez pas modifier le projet auquel ces actifs de données appartiennent.

Dans la sous-fenêtre de SORTIE DE FLUX DATA REFINERY, cliquez sur Éditer la sortie pour éditer la description ou l'emplacement du fichier cible. Indiquez si la première ligne du fichier de sortie contient les en-têtes de colonne. Vous pouvez sauvegarder le jeu de données cible dans le projet, une connexion ou un actif de données connecté. Si vous le sauvegardez dans le projet, vous pouvez le faire en tant que nouvel actif de données (par défaut) ou vous pouvez remplacer un actif de données existant. Editez l'emplacement pour sauvegarder le jeu de données cible dans une connexion ou pour remplacer un actif de données existant ou un actif de données connecté existant. Sinon, si l'emplacement est défini sur Data assets, vous pouvez éditer le nom dans la zone Nom de fichier pour spécifier un actif de données comme cible. Le jeu de données cible doit être un jeu de données différent du jeu de données source.

Si vous sélectionnez une vue ou une table de base de données relationnelle existante, ou si vous sélectionnez un actif de données relationnelles connecté comme cible pour votre sortie du flux Data Refinery, sélectionnez une option pour le jeu de données existant :

  • Remplacer - Remplace les lignes du jeu de données existant par celles de la sortie du flux Data Refinery
  • Recréer - Supprime les lignes du jeu de données existant et les remplace par celles de la sortie du flux Data Refinery
  • Insérer - Ajoute toutes les lignes de la sortie du flux Data Refinery au jeu de données existant
  • Mettre à jour - Met à jour les lignes du jeu de données existant avec la sortie du flux Data Refinery ; n'insère pas de nouvelles lignes
  • Mettre à jour/Insérer - Met à jour les lignes du jeu de données existant et lui ajoute le reste de la sortie du flux Data Refinery

Pour les options de mise à jour et d'Upsert, vous devez sélectionner les colonnes du jeu de données de sortie à comparer aux colonnes du fichier existant. Les jeux de données de sortie et cible doivent contenir le même nombre de colonnes, qui doivent porter les mêmes noms et types de données dans les deux cas.

Si vous sélectionnez un fichier dans une connexion comme cible pour votre sortie de flux Data Refinery, vous pouvez sélectionner l'un des formats suivants pour ce fichier :

  • Avro
  • CSV
  • JSON
  • Parquet

7. Cliquez sur Enregistrer et créer un travail ou Enregistrer et afficher les travaux dans la barre d'outils pour exécuter le flux Data Refinery sur l'ensemble des données. Sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. Pour plus d'informations sur les travaux, voir Travaux dans un projet.

Astuce : Si vous souhaitez continuer à affiner vos données ultérieurement, ouvrez le flux Data Refinery à partir de l'onglet Actifs du projet > Section Flux dData Refinery et sélectionnez l'endroit où vous avez quitté.

Modifier le fichier source d'un flux Data Refinery.

Si vous souhaitez modifier la source du flux Data Refinery, cliquez sur le menu déroulant dynamique (Menu déroulant dynamique ) à coté des source de données (avant la première étape) et sélectionnez Éditer. Pour les meilleurs résultats, le nouvel ensemble de données doit avoir un schéma compatible avec le jeu de données d'origine (par exemple, les noms de colonne, le nombre de colonnes et les types de données). Si le nouveau fichier possède un schéma différent, les opérations qui ne fonctionnent pas avec le schéma affichent des erreurs. Vous pouvez éditer ou supprimer les opérations ou modifier la source en un schéma plus compatible.

Afficher les étapes de flux Data Refinery en mode " instantané "

Pour voir comment se présentaient vos données à un moment donné, cliquez sur une étape précédente pour faire passer Data Refinery en vue d'instantané. Par exemple, si vous cliquez sur Source de données, vous verrez à quoi ressembleront vos données avant de commencer à les affiner. Cliquez sur l'étape d'une opération pour voir comment se présentaient vos données après l'application de l'opération. Pour quitter le mode image instantanée, cliquez sur Affichage de l'étape x de y ou sur la même étape que celle que vous avez sélectionnée pour accéder à la vue instantanée.

Utilisez le mode image instantanée pour insérer une opération entre deux étapes :

  1. Cliquez sur l'étape avant l'endroit où vous souhaitez insérer la nouvelle opération. Data Refinery affiche une vue instantanée du jeu de données après l'application de cette opération.
  2. Sélectionnez et appliquez la nouvelle opération. Data Refinery insère une nouvelle étape entre les étapes existantes et exécute de nouveau toutes les opérations qui suivent la nouvelle étape.

Annuler, refaire et modifier les étapes

Vous pouvez annuler et rétablir les opérations à partir de la barre d'outils. Vous pouvez également insérer, éditer et supprimer des opérations à partir de l'onglet Étapes.

Pour modifier une étape, procédez comme suit :

  1. Cliquez sur le menu déroulant dynamique (Menu déroulant dynamique) pour l'étape de l'opération que vous souhaitez modifier. Data Refinery passe en mode édition et affiche l'opération à éditer sur la ligne de commande ou dans la sous-fenêtre Opération.
  2. Modifiez l'opération ou sélectionnez une autre opération à la place.
  3. Appliquez l'opération modifiée. Data Refinery met à jour l'étape appropriée pour refléter vos changements et exécute de nouveau toutes les opérations qui suivent la version modifiée.

Etape suivante

Analyse de vos données et génération de modèles

En savoir plus

Rubrique parent : Préparation des données