Pour affiner les données, on les prend à un endroit, on les nettoie et on les met en forme, puis on écrit le résultat à un autre endroit. Vous pouvez nettoyer et façonner des données tabulaires à l'aide d'un outil d'éditeur de flux graphique appelé Data Refinery.
Lorsque vous nettoyez des données, vous corrigez ou supprimez des données incorrectes, incomplètes, mal formatées ou dupliquées. Lorsque vous formez des données, vous les personnalisez en filtrant, en triant, en combinant ou en supprimant des colonnes.
Vous créez un Flux Data Refinery en tant qu'ensemble d'opérations ordonnées sur des données. Data Refinery comprend une interface graphique pour profilez vos données pour le valider et plus de 20 tableaux personnalisables qui vous donnent un aperçu de vos données.
service requis
watsonx.ai Studio ou IBM Knowledge Catalog
Format des données
Avro, CSV, JSON, Microsoft Excel (formats xls et xlsx. Première feuille uniquement, sauf pour les connexions et les actifs de données connectés.), Parquet, SAS avec l'extension "sas7bdat" (lecture seule), TSV (lecture seule) ou actif de données texte délimité
Tables de sources de données relationnelles
Taille des données
N'importe laquelle. Data Refinery fonctionne sur un exemple de sous-ensemble de lignes dans le jeu de données. La taille de l'échantillon est de 1 Mo ou 10 000 lignes, selon la première éventualité. Toutefois, lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée. Si le flux Data Refinery échoue avec un actif de données de grande taille, voir les solutions de contournement dans Traitement des incidents liés à Data Refinery.
Pour plus d'informations sur le choix de l'outil approprié pour vos données et cas d'utilisation, voir Choix d'un outil.
Avant de pouvoir affiner les données, vous avez besoin de créer un projet qui utilise Cloud Object Storage.
Regardez cette vidéo pour voir comment créer un projet
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Si vous disposez de données dans le nuage ou dans des sources de données sur site, vous devrez soit ajouter des connexions à ces sources, soit ajouter des ressources de données à partir de chaque connexion. Si vous souhaitez pouvoir sauvegarder les données affinées dans des sources de données cloud ou sur site, créez également des connexions à cet effet. Dans Data Refinery, les connexions sources ne peuvent être utilisées que pour lire des données ; les connexions cibles ne peuvent être utilisées que pour écrire des données. Lorsque vous créez une connexion cible, veillez à utiliser les données d'identification ayant une autorisation d'écriture ou vous ne pourrez pas enregistrer votre sortie de flux Data Refinery sur la cible.
Regardez cette vidéo pour voir comment créer une connexion et ajouter des données connectées à un projet
Avertissement vidéo: Certaines étapes mineures et certains éléments graphiques de cette vidéo peuvent différer de votre plateforme.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Limitations pour un fichier source
Copy link to section
Fichiers CSV
Copy link to section
Assurez-vous que les fichiers CSV sont correctement formatés et respectent les règles suivantes :
Deux virgules consécutives sur une ligne indiquent une colonne vide.
Si une ligne se termine par une virgule, une colonne supplémentaire est créée.
Remarque :
Si votre fichier CVS contient une charge utile malveillante (des formules par exemple) dans un champ de saisie, ces éléments peuvent être exécutés.
Les caractères blancs sont considérés comme faisant partie des données
Copy link to section
Si vos données incluent des colonnes contenant des caractères blancs (blancs) , Data Refinery considère ces caractères blancs comme faisant partie des données, même si vous ne pouvez pas les voir dans la grille. Certains outils de base de données peuvent remplir des chaînes de caractères avec des caractères blancs pour rendre toutes les données d'une colonne de la même longueur et ce changement affecte les résultats des opérations de Data Refinery qui comparent les données.
Noms de colonnes
Copy link to section
Assurez-vous que les noms de colonne respectent les règles suivantes :
Les noms de colonne en doublon ne sont pas autorisés. Les noms de colonne doivent être uniques dans le jeu de données. Ils ne sont pas sensibles à la casse. Un ensemble de données
qui inclut un nom de colonne "Sales" et un autre nom de colonne "sales" ne fonctionne pas.
Les noms de colonne ne sont pas des mots réservés dans le langage de programmation R.
Les noms de colonne ne sont pas des nombres. Une solution consiste à placer les noms de colonne entre guillemets ("").
Les ensembles de données comportant des colonnes avec le type de données " Autres " ne sont pas pris en charge dans les flux Data Refinery
Copy link to section
Si votre ensemble de données contient des colonnes dont les types de données sont identifiés comme "Autres" dans l'aperçu de watsonx.ai Studio, les colonnes s'afficheront en tant que type de données String dans Data Refinery. Toutefois, si vous essayez d'utiliser les données dans un flux Data Refinery, le travail du flux Data Refinery échoue. Un exemple de type de données qui apparaît comme " Autre " dans l'aperçu est le type de données Db2 DECFLOAT.
Limitations pour un fichier cible
Copy link to section
La limitation suivante s'applique si vous sauvegardez la sortie de flux Data Refinery (le jeu de données cible) dans un fichier:
Vous ne pouvez pas modifier le format de fichier si le fichier est un actif de données existant.
Règles de protection des données
Copy link to section
Data Refinery ne prend pas en charge les règles de protection des données pour le filtrage des lignes. Les travaux Data Refinery peuvent échouer si l'actif est régi par des règles de protection des données de filtrage de ligne. De plus, si vous ajoutez un actif d' IBM Knowledge Catalog à un projet régi par des règles de protection des données de filtrage de ligne, le masquage ne sera pas appliqué dans Data Refinery. Pour plus d'informations, voir Application des règles de protection des données.
Aperçus du jeu de données
Copy link to section
Data Refinery prend en charge les jeux de données volumineux, qui peuvent être longs et difficiles à affiner. Pour vous permettre de travailler rapidement et efficacement, il fonctionne sur un sous-ensemble de lignes dans le jeu de données tandis que vous affinez les données de façon interactive. Lorsque vous exécutez un travail pour le flux Data Refinery, il s'applique à l'ensemble du jeu de données.
Affinage des données
Copy link to section
La vidéo suivante explique comment affiner les données.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Transcription
Retranscription de la vidéo
Heure
Transcription
00:00
Cette vidéo vous montre comment former des données brutes à l'aide de Data Refinery.
00:05
Pour commencer à affiner les données d'un projet, affichez l'actif de données et ouvrez-le dans Data Refinery.
00:14
Le panneau "Informations" contient le nom du flux de données et de la sortie du flux de données, une fois que vous avez fini d'affiner les données.
00:23
L'onglet "Données" affiche un exemple d'ensemble de lignes et de colonnes du jeu de données.
00:29
Pour améliorer les performances, vous ne verrez pas toutes les lignes du shaper.
00:33
Mais soyez assuré que lorsque vous affinez les données, le flux de données sera exécuté sur l'ensemble de données complet.
00:41
L'onglet "Profil" affiche la fréquence et les statistiques récapitulatives de chacune de vos colonnes.
00:49
L'onglet "Visualisations" fournit des visualisations de données pour les colonnes qui vous intéressent.
00:57
Un point bleu apparaît en regard des icônes des graphiques suggérés.
01:03
Utilisez les différentes perspectives disponibles dans les graphiques pour identifier les masques, les connexions et les relations dans les données.
01:12
Maintenant, faisons de la préparation de données.
01:17
Commencez par une opération simple, comme le tri sur la colonne spécifiée-dans ce cas, la colonne "Année".
01:27
Dites que vous voulez vous concentrer sur les retards uniquement pour une compagnie aérienne spécifique afin de pouvoir filtrer les données pour n'afficher que les lignes où le transporteur unique est "United Airlines".
01:47
Il serait utile de voir le retard total.
01:50
Vous pouvez le faire en créant une nouvelle colonne pour combiner les retards d'arrivée et de départ.
01:56
Notez que le type de colonne est considéré comme un entier.
02:00
Sélectionnez la colonne Délai de départ et utilisez l'opération "Calculer".
02:09
Dans ce cas, vous ajouterez la colonne du délai d'arrivée à la colonne sélectionnée et créerez une nouvelle colonne, appelée "TotalDelay"
02:23
Vous pouvez positionner la nouvelle colonne à la fin de la liste des colonnes ou à côté de la colonne d'origine.
02:31
Lorsque vous appliquez l'opération, la nouvelle colonne s'affiche en regard de la colonne Délai de départ.
02:38
Si vous faites une erreur, ou décidez simplement de faire une modification, il suffit d'accéder au panneau "Étapes" et de supprimer cette étape.
02:46
Cela annulera cette opération particulière.
02:50
Vous pouvez également utiliser les boutons de rétablissement et d'annulation.
02:56
Ensuite, vous souhaitez vous concentrer sur la colonne "TotalDelay" afin d'utiliser l'opération "select" pour déplacer la colonne au début.
03:09
Cette commande place la colonne "TotalDelay" en tête de liste, et toutes les autres viennent ensuite.
03:21
Ensuite, utilisez l'opération "group_by" pour diviser les données en groupes par année, mois et jour.
03:32
Ainsi, lorsque vous sélectionnez la colonne "TotalDelay", vous verrez les colonnes "Year", "Month", "DayofMonth", et "TotalDelay".
03:44
Enfin, vous souhaitez trouver la moyenne de la colonne "TotalDelay".
03:48
Lorsque vous développez le menu "Opérations", dans la section "Organiser", vous trouverez l'opération "Agréger", qui inclut la fonction "Moyenne".
04:08
Vous disposez maintenant d'une nouvelle colonne, appelée "AverageDelay", qui représente la moyenne du délai total.
04:17
Maintenant, pour exécuter le flux de données et sauvegarder et créer le travail.
04:24
Indiquez un nom pour le travail et passez à l'écran suivant.
04:28
L'étape "Configurer" vous permet de vérifier l'entrée et la sortie de votre exécution de travail.
04:36
Et sélectionnez l'environnement utilisé pour exécuter le travail.
04:41
La planification d'un travail est facultative, mais vous pouvez définir une date et répéter le travail, si vous le souhaitez.
04:51
Vous pouvez également choisir de recevoir des notifications pour ce travail.
04:56
Tout semble correct, donc créez et exécutez le travail.
05:00
Cela peut prendre plusieurs minutes, car n'oubliez pas que le flux de données sera exécuté sur l'ensemble complet des données.
05:06
Dans l'intervalle, vous pouvez afficher le statut.
05:12
Lorsque l'exécution est compétitive, vous pouvez revenir à l'onglet "Actifs" dans le projet.
05:20
Et ouvrez le flux Data Refinery pour affiner davantage les données.
05:28
Par exemple, vous pouvez trier la colonne "AverageDelay" par ordre décroissant.
05:36
A présent, éditez les paramètres de flux.
05:39
Dans le panneau "Général", vous pouvez modifier le nom du flux Data Refinery .
05:46
Dans le panneau "Ensembles de données source", vous pouvez éditer l'exemple ou le format de l'ensemble de données source ou remplacer la source de données.
05:56
Et dans le panneau "Ensemble de données cible", vous pouvez spécifier un autre emplacement, tel qu'une source de données externe.
06:06
Vous pouvez également éditer les propriétés de la cible, telles que le mode d'écriture, le format de fichier et modifier le nom de l'actif de l'ensemble de données.
06:21
Maintenant, exécutez à nouveau le flux de données, mais cette fois, enregistrez et affichez les travaux.
06:28
Sélectionnez le travail que vous souhaitez afficher dans la liste et exécutez le travail.
06:41
Une fois l'exécution terminée, revenez au projet.
06:46
Et dans l'onglet "Actifs", vous verrez les trois fichiers:
06:51
L'original.
06:54
Le premier ensemble de données affiné, montrant le "AverageDelay" non trié.
07:02
Et le deuxième ensemble de données, montrant la colonne "AverageDelay" triée par ordre décroissant.
07:11
Puis, dans l'onglet "Actifs", il y a le flux Data Refinery .
07:19
Trouvez d'autres vidéos dans la documentation de Cloud Pak for Data as a Service.
1. Accéder à Data Refinery à partir d'un projet. Cliquez sur Nouvel actif > Préparer et visualiser les données. Sélectionnez ensuite les données que vous souhaitez utiliser. Sinon, dans l'onglet Actifs d'un projet, cliquez sur un actif de données pour le prévisualiser, puis cliquez sur Préparer les données.
2. Utilisez les étapes pour appliquer des opérations qui nettoient, façonnent et enrichissent vos données. Parcourez les catégories d'opération ou la recherche d'une opération spécifique, puis laissez l'interface utilisateur vous guider. Vous pouvez entrer le code R dans la ligne de commande et laisser la saisie semi-automatique vous aider à obtenir la syntaxe correcte. Lorsque vous appliquez des opérations à un jeu de données, Data Refinery en conserve une trace et génère un flux Data Refinery. Pour chaque opération que vous appliquez, Data Refinery ajoute une étape.
Onglet de données " "
Si vos données contiennent des types de données non-chaîne, l'opération d'interface graphique deConversion du type de colonne est automatiquement appliquée en tant que première étape du flux Data Refinery lorsque vous ouvrez un fichier dans Data Refinery. Les types de données sont automatiquement convertis en types de données induits, comme Entier, Date ou Booléen. Vous pouvez annuler ou éditer cette étape.
3. Cliquez sur l'onglet Profil pour valider vos données tout au long du processus d'amélioration des données.
Onglet de profil ' '
4. Cliquez sur l'onglet Visualisations pour visualiser les données dans des graphiques. Découvrez les masques, les tendances et les corrélations dans vos données.
Onglet Visualisations ' '
5. Affinez l'exemple de jeu de données en fonction de vos besoins.
6. Cliquez sur Sauvegarder et créer un travail ou sur Sauvegarder et afficher les travaux dans la barre d'outils pour exécuter le flux Data Refinery sur l'ensemble de données. Sélectionnez l'environnement d'exécution et ajoutez une planification unique ou récurrente. Pour plus d'informations sur les travaux, voir Création de travaux dans Data Refinery.
Lorsque vous exécutez un travail pour le flux Data Refinery, la totalité du jeu de données est traitée. Ainsi, la tâche peut potentiellement créer un grand ensemble de données de sortie (cible) en fonction des transformations et de la quantité de données traitées dans le flux. Par défaut, le résultat du flux Data Refinery est enregistré en tant que ressource de données dans le projet.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.
À propos des cookies sur ce sitePour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires.Pour plus informations, passez en revue vos options de préférences en préférences en matière de cookies. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM.Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.