L'organisation des données est le processus qui consiste à ajouter des actifs de données à un projet ou à un catalogue, à les enrichir pa l'affectatiin de classifications, de classes de données et de termes métier, et à analyser et améliorer la qualité des données.
Avant de pouvoir commencer à conserver des données, vous devez avoir configuré IBM Knowledge Catalog afin que vous disposiez d'un cadre de gouvernance et d'au moins un catalogue pour partager les actifs sélectionnés (voir Planification de la mise en œuvre de la gouvernance des données).
L'organisation peut être un processus principalement manuel où vous organisez les actifs de données un par un. La curation avancée est un processus plus automatisé où de nombreuses tâches de curation sont exécutées automatiquement pour plusieurs actifs de données simultanément.
Exigences et restrictions
Pour l'organisation des données, les exigences et restrictions suivantes existent.
Outils de conservation des données
Vous utilisez les outils suivants:
service requis
La curation des données nécessite IBM Knowledge Catalog, IBM Knowledge Catalog Standard ou IBM Knowledge Catalog Premium. L'analyse avancée dans le cadre de l'enrichissement des métadonnées (profilage avancé, analyses approfondies des clés et des relations) nécessite également le service DataStage.
Formats de données
Les formats de données suivants sont pris en charge:
- Tableaux issus de sources de données relationnelles et non relationnelles, Amazon S3 Tableaux du lac Delta
- Metadata import: tous les formats des connexions basées sur des fichiers aux sources de données
- Enrichissement des métadonnées: Tabulaire: CSV, TSV, Avro, Parquet, Microsoft Excel
Pour plus d'informations sur les connecteurs pris en charge, voir Sources de données prises en charge pour l'organisation et la qualité des données.
Taille des données
La curation des données fonctionne avec des données de n'importe quelle taille.
Droits requis
Vos rôles déterminent les tâches de curation que vous pouvez effectuer:
- Vous devez disposer du rôle CloudPak Data Steward ou d'un rôle personnalisé avec au moins le même ensemble d'actions. Voir Rôles prédéfinis.
- Pour utiliser les actifs associés aux outils de curation, vous devez également disposer de rôles spécifiques dans les projets et les catalogues. Pour connaître les exigences exactes, consultez les outils individuels.
Espaces de travail
Vous pouvez effectuer des tâches de curation dans les espaces de travail suivants:
- Projets
- Catalogues
Selon les tâches d'organisation que vous voulez effectuer, vous devez travailler sur l'actif de données dans un projet, un catalogue ou les deux pour que les données soient prêtes à être utilisées par les autres utilisateurs.
Un projet est un espace de travail collaboratif où généralement vous préparez et analysez les données, avant de les publier dans un catalogue pour les mettre à la disposition des autres utilisateurs de votre organisation. Vous pouvez également ajouter des données à un catalogue directement si vous pouvez le partager sans autre préparation. Certains types de données ne peuvent être ajoutés qu'aux catalogues.
Tâches d'organisation
Avec les tâches d'organisation qui suivent, vous pouvez développer des actifs de données de valeur :
Ajouter des actifs de données à un projet ou à un catalogue :
- Ajoutez des actifs à partir d'une connexion à une source de données, manuellement un par un ou plusieurs actifs de données automatiquement via l' importation de métadonnées. Laissez vos données là où elles se trouvent dans le cloud ou sur site, et ajoutez simplement des métadonnées d'actif et les informations de connexion pour accéder aux données dans un projet ou un catalogue.
- Transférer des fichiers individuels dans le stockage associé au projet ou au catalogue.
- Ajouter manuellement des actifs d'un catalogue à un projet pour les utiliser.
Analyser et enrichir vos données :
Profilez des actifs de données individuels pour obtenir des statistiques de base sur le contenu de l'actif et pour affecter des classes de données dans un projet ou un catalogue. Voir Profilage des actifs de données.
Créer et exécuter un enrichissement de métadonnées dans un projet. Voir Enrichissement des actifs de données.
- Profiler plusieurs actifs de données à la fois pour affecter automatiquement des classes de données et identifier les types de données et le format des colonnes.
- Exécutez l'analyse de qualité sur plusieurs jeux de données en une seule exécution pour rechercher les problèmes de qualité de données courants tels que les valeurs manquantes ou les violations de classe de données.
- Affectez automatiquement des termes métier à des actifs et générez des suggestions de termes en fonction d'algorithmes de classification de données ou d'apprentissage automatique.
Passez en revue les résultats de l'enrichissement. Une vue globale des scores de qualité des actifs de données est disponible dans l'actif d'enrichissement des métadonnées du projet. Vous pouvez afficher les résultats détaillés de chaque actif de données ou colonne en cliquant sur le score de qualité. Vous pouvez également accéder aux informations dans l'onglet Qualité de données d'un actif, dans un projet ou un catalogue.
Exécutez de nouveau les travaux d'importation et d'enrichissement à intervalles pour reconnaître et évaluer les modifications apportées aux actifs de données. Vous pouvez le faire manuellement ou configurer des plannings pour l'importation et l'enrichissement.
Evaluer la qualité des données en exécutant des règles de qualité des données.
Affiner les données pour en améliorer la qualité et l'utilité dans un projet.
Publier des actifs d'un projet dans un catalogue.
Evaluer et réviser des actifs de données dans un catalogue.
Créer des balises et les ajouter aux actifs de données dans un catalogue.
Ajouter des classifications et des termes métier aux différents actifs de données dans un catalogue.
Tâche | Exécution manuelle | Exécution automatique |
---|---|---|
Créer des actifs | Catalogues de projets |
Catalogues de projets |
Affecter des classes de données | Catalogues de projets |
Catalogues de projets |
Affecter des classifications | Catalogues | — |
Affecter des termes métier | Catalogues de projets |
Projets |
Analyse de la qualité des données (enrichissement des métadonnées) |
Projets | Projets |
Evaluer la qualité des données (règles) | Projets | Projets |
Exemple de flux: curation avancée
Un flux de curation peut comporter les tâches suivantes:
Dans un projet, créez et exécutez une importation de métadonnées avec l'objectif Discover pour effectuer une importation en bloc de métadonnées à partir d'une connexion dans le projet. Vous pouvez également configurer l'importation de métadonnées pour qu'elle s'exécute selon une planification ponctuelle ou répétitive.
Dans le même projet, créez et exécutez un enrichissement de métadonnées pour effectuer ces tâches pour l'ensemble d'actifs de données importés en une seule exécution:
- Profiler les actifs de données.
- Exécuter une analyse de qualité sur les actifs de données.
- Affectez automatiquement des termes métier à des actifs importés et générez des suggestions de termes.
Vous pouvez également configurer une planification ponctuelle ou répétitive pour votre enrichissement de métadonnées. Vous pouvez aligner votre planification d'enrichissement avec la planification configurée pour l'importation de métadonnées.
Vérifiez les résultats de l'enrichissement pour les actifs de données et leurs colonnes.
Publier les actifs de données enrichis dans le catalogue.
Vous pouvez effectuer la plupart des tâches de curation avec des API à la place de l'interface utilisateur. Les liens vers l' API IBM Knowledge Catalog sont listés pour chaque tâche applicable.
En savoir plus
- Actifs de catalogue
- Projets
- Raffinage des données
- Importation de métadonnées
- Enrichissement des actifs de données
Rubrique parent : Préparation des données