Création d'une table virtualisée à partir des fichiers de 'Cloud Object Storage dans 'Data Virtualization

Retourner à la version anglaise de la documentation

Création d'une table virtualisée à partir de fichiers dans 'Cloud Object Storage dans Data Virtualization

Dernière mise à jour : 26 nov. 2024

Création d'une table virtualisée à partir des fichiers de 'Cloud Object Storage dans 'Data Virtualization

La Data Virtualization permet de virtualiser et d'utiliser des données stockées sous forme de fichiers dans un système de stockage objet.

Vous pouvez virtualiser des données dans des fichiers dans les sources de données de stockage d'objets suivantes:

IBM® Cloud Object Storage
Amazon S3
Ceph®
S3 générique

Segment ou combinaison de données d'un ou de plusieurs fichiers pour créer une table virtuelle.

Avant de commencer

Pour accéder aux données dans le stockage d'objets cloud, vous devez créer une connexion à la source de données dans laquelle se trouvent les fichiers. Pour plus d'informations sur les sources de données du stockage d'objets, voir Sources de données du stockage d'objets dans la Data Virtualization.

A propos de cette tâche

Regardez la vidéo suivante pour un aperçu des fichiers virtualisés dans 'Cloud Object Storage dans la Data Virtualization.

Cette vidéo fournit une méthode visuelle comme alternative aux procédures écrites dans la présente documentation.

Procédure

Dans le menu de navigation, cliquez sur Données > Data virtualization.
Le menu de service s'ouvre sur la page Sources de données par défaut.
Dans le menu du service, cliquez sur Virtualisation > Virtualiser , puis cliquez sur l'onglet Fichiers .
La liste des sources de données disponibles s'affiche. Vous pouvez restreindre les actifs affichés à l'aide des filtres disponibles.
Si vous avez spécifié un nom de compartiment lors de la configuration de la connexion de source de données, cliquez sur pour développer les détails de la connexion de stockage d'objets afin d'afficher les informations Type de service et Compartiment . Si vous n'avez pas indiqué de nom de compartiment lorsque vous avez configuré la connexion à la source de données, vous pouvez utiliser la zone d'entrée Bucket pour rechercher un compartiment spécifique dans le nœud final.

Si la liste des sources de données n'apparaît pas, cliquez sur Actualiser.
Sélectionnez le noeud final de stockage d'objets sur lequel vous souhaitez parcourir les fichiers et les chemins d'accès aux fichiers.
Pour Cloud Object Storage, le noeud final est l'URL de la mémoire de l'objet.
Une liste de chemins de fichiers ou de segments dans le noeud final apparaît. Vous pouvez naviguer dans la structure du chemin d'accès au fichier ou cliquer sur pour afficher les détails du contenu du premier fichier dans le chemin d'accès au fichier.
Vous ne pouvez pas ajouter le seau à votre panier. Pour ajouter un chemin de fichier à votre panier, vous devez sélectionner le chemin du fichier pour prévisualiser les fichiers dans le chemin, puis cliquer sur Ajouter au panier. Vous ne pouvez pas sélectionner un fichier au niveau du compartiment, vous devez ajouter le fichier à un chemin de fichier dans le compartiment.
Sélectionnez le fichier ou le chemin de fichier à virtualiser et cliquez sur Ajouter au panier.
Important :
- Vous ne pouvez pas virtualiser un fichier unique dans un chemin de fichier contenant plusieurs fichiers. L'URL est convertie en chemin parent où se trouve le fichier et la totalité du chemin d'accès au fichier est virtualisée. Si vous souhaitez virtualiser un fichier unique, vous pouvez le déplacer vers un chemin de fichier distinct. Le chemin de fichier distinct ne doit pas être un chemin de sous-fichier d'un autre chemin de fichier qui est ou sera virtualisé.
- Les fichiers que vous souhaitez virtualiser doivent se trouver dans un chemin de fichier et non au même niveau que le compartiment. Par exemple, vous ne pouvez pas virtualiser un fichier s3a://mynewbigsqlbucket/mydata.csv; vous devez placer mydata.csv dans un chemin de fichier et virtualiser s3a://mynewbigsqlbucket/fi1epath1/mydata.csv car le processus de virtualisation ne peut pas créer de table externe à l'aide d'un nom de compartiment sans chemin d'accès.
Cliquez sur Afficher le panier pour prévisualiser vos sélections de données de fichier en tant que fichier virtuel.
A partir de cette fenêtre, vous pouvez éditer des noms de schéma, des fichiers de prévisualisation qui participent à une table fusionnée ou supprimer une sélection de votre panier.
Si IBM Knowledge Catalog est installé, vous pouvez publier votre table virtuelle dans un catalogue. Pour plus d'informations, voir Publication de données virtuelles dans le catalogue dans la rubrique Data Virtualization.
Recommandé: Mettez à jour le type de colonnes partitionnées de STRING à quelque chose de plus approprié. Inspectez manuellement et spécifiez les types appropriés pour le partitionnement des colonnes pour des performances optimales.
Facultatif: Cliquez sur et sélectionnez Editer les colonnes.
Vous pouvez éditer un nom de colonne qui n'est pas balisé en tant que colonne de partitionnement et modifier les types de colonne à l'aide du menu déroulant. Lorsque vous êtes satisfait de vos modifications, cliquez sur Valider. Les noms de colonne mis à jour sont affichés une fois que vous avez virtualisé la table.
Remarque: Lorsque vous virtualisez des fichiers JSON avec des données en japonais sur IBM Cloud Object Storage et que les noms de colonne en japonais ne s'affichent pas correctement, vous pouvez utiliser l'option allownonalphanumeric pour afficher correctement les en-têtes de colonne en japonais virtualisés. Cette option est désactivée par défaut et vous devez l'activer. Pour plus d'informations, voir Les noms de colonne japonais ne s'affichent pas correctement dans les données virtualisées.

Sélectionnez l'option appropriée pour affecter la table virtuelle à créer à partir des données de fichier :

Affecter à	Quand utiliser cette option
Project	Sélectionnez Projet si vous avez créé la table virtuelle à utiliser dans un projet spécifique. Choisissez ensuite le projet approprié. La table apparaît également dans Données virtualisées.
Données virtualisées	Sélectionnez Données virtualisées si la table n'a pas été créée pour être utilisée dans un projet spécifique. Ce paramètre est la valeur par défaut s'il n'existe aucun projet.

Sélectionnez Publier dans le catalogue si vous souhaitez également publier dans un catalogue sélectionné.
La liste des catalogues disponibles s'affiche dans le menu déroulant. Chaque catalogue est marqué comme Gouverné ou Non gouverné.
Remarque : vous devez avoir au moins un catalogue dans IBM Knowledge Catalog
Vous devez disposer du droit de publication dans un catalogue. Un administrateur peut activer si tous les objets virtuels sont publiés dans un catalogue gouverné sélectionné, ce qui empêche un utilisateur de publier dans un catalogue spécifié.
Indiquez un schéma dans la zone Schéma .
Vous pouvez également créer un schéma en suivant ces étapes.
- Si vous avez le rôle d'ingénieur en Data Virtualization ou d'utilisateur, laissez le champ Schéma par défaut pour créer un schéma avec votre ID utilisateur.
- Si vous avez le rôle de gestionnaire de la Data Virtualization, laissez le champ Schéma par défaut pour créer un schéma avec votre ID utilisateur ou entrez le nouveau nom du schéma dans le champ Schéma.
Pour plus d'informations, voir Création de schémas pour les objets virtuels.
Cliquez sur Virtualiser pour terminer le processus.
Lorsque la fenêtre de statut s'ouvre, vous pouvez choisir d'afficher vos données virtualisées ou de virtualiser d'autres données.

Que faire ensuite ?

Affichez la structure de la table et les métadonnées.
Gérer l'accès au tableau.
Éditez les noms de colonne et les types de vos actifs de stockage d'objets afin que vous puissiez préparer des données précises pour la virtualisation.
Collectez des statistiques pour votre table virtualisée afin d'optimiser les performances des requêtes. Pour plus d'informations, voir Collecte de statistiques dans Virtualisation des données.
En option, sur la page Données virtualisées, publiez votre objet virtuel dans le catalogue. Pour plus d'informations, voir Publication de données virtuelles dans le catalogue dans la rubrique Data Virtualization.