Démarrage rapide : Organisation des données

Vous pouvez rapidement réduire les données en important des informations pour des fichiers sélectionnés dans une source de données, puis publier les ressources de données résultantes dans un catalogue. Lisez en davantage à propos de la curation des données, puis regardez une vidéo et suivez un tutoriel qui convient aux utilisateurs avec une certaine connaissance de la curation des données, mais pour lequel vous n'avez pas besoin de coder.

Rôles requis Vous devez disposer du rôle d'administrateur ou d'éditeur dans un projet et du rôle d'administrateur ou d'éditeur dans le catalogue cible.

Votre flux de travaux de base inclut les tâches suivantes :

  1. Créez un projet. Voir Créer un projet.
  2. Créez une connexion à une source de données externe. Voir Ajout de connexions à des projets.
  3. Créez un actif d'importation de métadonnées pour configurer les détails de l'importation, exécuter le travail d'importation et publier les actifs dans votre catalogue.

En savoir plus sur l'organisation des données

Vous pouvez importer les métadonnées associées aux actifs de données de votre organisation dans un projet ou un catalogue afin de répertorier, d'évaluer et de cataloguer ces actifs. Ces métadonnées aident les utilisateurs à déterminer si les données sont appropriées pour la tâche en cours et s'ils peuvent faire confiance aux données et à décider de la méthode à utiliser pour gérer les données.

Les métadonnées que vous importez peuvent ensuite être enrichies avec d'autres informations pour aider les utilisateurs à trouver des données plus rapidement et à les utiliser en toute confiance. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions.

Lorsque vous importez des métadonnées, vous ajoutez des actifs de données à un projet ou à un catalogue. Si vous importez les actifs dans un projet, ils ne sont pas visibles dans un catalogue tant que vous ne les publiez pas. Une fois que vous avez partagé ces actifs avec un catalogue, les autres utilisateurs du catalogue peuvent les utiliser.

En savoir plus sur l'importation des métadonnées

Regarder une vidéo sur l'importation des métadonnées d'actif

Regardez une vidéo Regardez cette vidéo pour savoir comment importer des métadonnées d'actif à partir d'une source de données externe.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

Essayer un tutoriel pour importer des métadonnées d'actif

Créez un actif d'importation de métadonnées dans un projet existant, exécutez un travail, puis ajoutez des actifs sélectionnés à un catalogue.

Prérequis

  1. Un catalogue ou un accès précédemment créé pour créer un catalogue.
  2. Les données d'identification de votre instance Cloud Object Storage.

    1. Dans le menu Cloud Pak for Data, cliquez sur Services > Instances de service.
    2. Cliquez sur l'icône à coté de l'instance Cloud Object Storage et, si nécessaire, connectez-vous à IBM Cloud.
    3. Sur la page de l'instance de service Cloud Object Storage, sélectionnez le panneau Données d'identification pour afficher vos données d'identification. Si vous avez plusieurs ensembles de données d'identification répertoriés, sélectionnez les données d'identification qui incluent cos_hmac_keys. Vous devez fournir ces données d'identification ultérieurement dans ce tutoriel.
    4. Sélectionnez le panneau Nœuds finaux.
    5. Sélectionnez votre emplacement, par exemple, États-Unis - géo.
    6. Copiez l'URL de connexion publique, par exemple, https://s3.us.cloud-object-storage.appdomain.cloud.
  3. Exemple de projet avec des fichiers chargés dans votre instance Cloud Object Storage.

    1. Accédez au Projet d'optimisation des prix d'assurance.
    2. Cliquez sur Create Project.
    3. Le nom, la description et le stockage seront remplis pour vous. Cliquez sur Créer.
    4. Cliquez sur Afficher le récapitulatif des importations. Les fichiers de données de l'onglet Actifs du projet ont été ajoutés à votre instance Cloud Object Storage.

Dans ce tutoriel, vous :

  • Créez un projet.
  • Importer des métadonnées dans un projet.
  • Afficher les résultats de l'importation et de la publication des actifs dans le catalogue.

Ce tutoriel dure environ 20 minutes.

Etape 1 : Création d'un projet

{: #step1} Vous avez besoin d'un projet pour stocker l'actif de métadonnées d'importation et les actifs reconnus.

  1. Si vous disposez d'un projet existant autre que l'exemple de projet que vous avez créé comme prérequis, ouvrez ce projet. Si vous ne disposez pas d'un autre projet existant, cliquez sur Créer un projet sur la page d'accueil ou sur Nouveau projet sur votre page Projets.
  2. Sélectionnez Créer un projet vide.
  3. Dans l'écran Créer un projet, ajoutez un nom et une description facultative pour le projet.
  4. Choisissez un projet existant ou créez-en un.
  5. Cliquez sur Créer.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.
Pour plus d'informations sur Cloud Object Storage, voir Object Storage.

Étape 2 : Importation des métadonnées dans un projet

{: #step2} Créez l'actif d'importation de métadonnées et spécifiez la connexion pour l'importation.

  1. Dans votre projet, cliquez sur Ajouter à un projet > Importation de métadonnées.
  2. Indiquez un nom pour votre importation. Cette description est facultative.
  3. Dans la liste déroulante Connexion, sélectionnez Créer une connexion.
  4. Vous pouvez importer des métadonnées à partir des sources de données répertoriées. Pour ce tutoriel, sélectionnez Cloud Object Storage et cliquez sur Sélectionner.
  5. Indiquez un nom, une description et les détails de connexion à l'aide des données d'identification de votre instance Cloud Object Storage trouvées dans IBM Cloud.
  6. Cliquez sur Créer pour créer la connexion. Cette nouvelle connexion sera répertorié dans la liste déroulante Définir la connexion source et cible.
  7. Vous pouvez choisir d'importer des métadonnées dans un projet ou un catalogue. Dans ce tutoriel, vous devez d'abord importer les métadonnées dans le projet puis sélectionner des actifs spécifiques à publier dans un catalogue.
  8. Cliquez sur Suivant pour poursuivre vers la portée des données.

Etape 3 : Définition d'une portée de données

{: #step3} Définissez les actifs à importer à partir de la connexion.

  1. Cliquez sur Définir la portée des données.
  2. Vous pouvez sélectionner tous les schémas ou sélectionner uniquement des schémas ou des tables à importer. La sélection du dossier Optimisation de l'assurance vous permet de voir le nombre d'éléments qu'il contient.
  3. Cochez la case à coté du dossier Optimisation de l'assurance pour définir la portée comme tous les actifs de ce dossier.
  4. Cliquez sur Sélectionner pour continuer à définir l'actif d'importation des métadonnées.
  5. Cliquez sur Suivant pour poursuivre l'exécution de la planification.

Etape 4 : Planification et exécution de l'importation

{: #step4} Spécifiez pour exécuter l'importation maintenant ou la planifier à une date ultérieure.

  1. (Facultatif) Modifiez le nom de travail par défaut.
  2. (Facultatif) Cliquez sur le bouton Exécution planifiée inactive pour spécifier les détails de démarrage et de répétition.
  3. Cliquez sur Suivant pour poursuivre l'examen.
  4. Passez en revue le récapitulatif de l'importation et cliquez sur Créer.
  5. Le travail d'importation de métadonnées démarre ou va s'exécuter à l'heure planifiée.

Etape 5 : Affichage des résultats de l'importation et de la publication des actifs dans le catalogue

{: #step5}Une fois que l'exécution du travail terminée, la liste des actifs importés s'affiche.

  1. Sélectionnez un ou plusieurs fichiers csv dans la liste et cliquez sur Publier.
  2. Sélectionnez le catalogue Cible, fournissez une description et des balises, puis cliquez sur Publier.
  3. Accédez au catalogue pour afficher les ressources de données que vous venez d'ajouter dans l'onglet Récemment ajouté.

Etapes suivantes

Les données sont maintenant prêtes à être utilisées. Par exemple, vous ou d'autres utilisateurs pouvez effectuer l'une des tâches suivantes :

Autres ressources

Rubrique parent : Initiation aux données de traitement et de gestion