La Data Virtualization permet de virtualiser et d'utiliser des données stockées sous forme de fichiers dans un système de stockage objet.
Vous pouvez virtualiser des données dans des fichiers dans les sources de données de stockage d'objets suivantes:
- IBM® Cloud Object Storage
- Amazon S3
- Ceph®
- S3 générique
Segment ou combinaison de données d'un ou de plusieurs fichiers pour créer une table virtuelle.
A propos de cette tâche
Regardez la vidéo suivante pour un aperçu des fichiers virtualisés dans 'Cloud Object Storage dans la Data Virtualization.
Cette vidéo fournit une méthode visuelle comme alternative aux procédures écrites dans la présente documentation.
Procédure
- Dans le menu de navigation, cliquez sur .
Le menu de service s'ouvre sur la page Sources de données par défaut.
- Dans le menu du service, cliquez sur , puis cliquez sur l'onglet Fichiers .
La liste des sources de données disponibles s'affiche. Vous pouvez
restreindre les actifs affichés à l'aide des filtres disponibles.
Si vous avez spécifié un nom de compartiment lors de la configuration de la connexion de source de données, cliquez sur pour développer les détails de la connexion de stockage d'objets afin d'afficher les informations Type de service et Compartiment . Si vous n'avez pas indiqué de nom de compartiment lorsque vous avez configuré la connexion à la source de données, vous pouvez utiliser la zone d'entrée Bucket pour rechercher un compartiment spécifique dans le nœud final.
Si la liste des sources de données n'apparaît pas, cliquez sur Actualiser.
- Sélectionnez le noeud final de stockage d'objets sur lequel vous souhaitez parcourir les fichiers et les chemins d'accès aux fichiers.
Pour Cloud Object Storage, le noeud final est l'URL de la mémoire de l'objet.
Une liste de chemins de fichiers ou de segments dans le noeud final apparaît. Vous pouvez naviguer dans la structure du chemin d'accès au fichier ou cliquer sur
pour afficher les détails du contenu du premier fichier dans le chemin d'accès au fichier.
Vous ne pouvez pas ajouter le seau à votre panier. Pour ajouter un chemin de fichier à votre panier, vous devez sélectionner le chemin du fichier pour prévisualiser les fichiers dans le chemin, puis cliquer sur Ajouter au panier. Vous ne pouvez pas sélectionner un fichier au niveau du compartiment, vous devez ajouter le fichier à un chemin de fichier dans le compartiment.
- Sélectionnez le fichier ou le chemin de fichier à virtualiser et cliquez sur Ajouter au panier.
Important :
- Vous ne pouvez pas virtualiser un fichier unique dans un chemin de fichier contenant plusieurs fichiers. L'URL est convertie en chemin parent où se trouve le fichier et la totalité du chemin d'accès au fichier est virtualisée. Si vous souhaitez virtualiser un fichier unique, vous pouvez le déplacer vers un chemin de fichier distinct. Le chemin de fichier distinct ne doit pas être un chemin de sous-fichier d'un autre chemin de fichier qui est ou sera virtualisé.
- Les fichiers que vous souhaitez virtualiser doivent se trouver dans un chemin de fichier et non au même niveau que le compartiment. Par exemple, vous ne pouvez pas virtualiser un fichier s3a://mynewbigsqlbucket/mydata.csv; vous devez placer mydata.csv dans un chemin de fichier et virtualiser s3a://mynewbigsqlbucket/fi1epath1/mydata.csv car le processus de virtualisation ne peut pas créer de table externe à l'aide d'un nom de compartiment sans chemin d'accès.
- Cliquez sur Afficher le panier pour prévisualiser vos sélections de données de fichier en tant que fichier virtuel.
- Recommandé: Mettez à jour le type de colonnes partitionnées de STRING à quelque chose de plus approprié. Inspectez manuellement et spécifiez les types appropriés pour le partitionnement des colonnes pour des performances optimales.
- Facultatif: Cliquez sur et sélectionnez Editer les colonnes.
Vous pouvez éditer un nom de colonne qui n'est pas balisé en tant que colonne de partitionnement et modifier les types de colonne à l'aide du menu déroulant. Lorsque vous êtes satisfait de vos modifications, cliquez sur Valider. Les noms de colonne mis à jour sont affichés une fois que vous avez virtualisé la table.Remarque: Lorsque vous virtualisez des fichiers JSON avec des données en japonais sur
IBM Cloud Object Storage et que les noms de colonne en japonais ne s'affichent pas correctement, vous pouvez utiliser l'option
allownonalphanumeric
pour afficher correctement les en-têtes de colonne en japonais virtualisés. Cette option est désactivée par défaut et vous devez l'activer. Pour plus d'informations, voir
Les noms de colonne japonais ne s'affichent pas correctement dans les données virtualisées.
- Sélectionnez l'option appropriée pour affecter la table virtuelle à créer à partir des données de fichier :
Affecter à |
Quand utiliser cette option |
Project |
Sélectionnez Projet si vous avez créé la table virtuelle à utiliser dans un projet spécifique. Choisissez ensuite le projet approprié. La table apparaît également dans Données virtualisées. |
Données virtualisées |
Sélectionnez Données virtualisées si la table n'a pas été créée pour être utilisée dans un projet spécifique. Ce paramètre est la valeur par défaut s'il n'existe aucun projet. |
- Sélectionnez Publier dans le catalogue si vous souhaitez également publier dans un catalogue sélectionné.
La liste des catalogues disponibles s'affiche dans le menu déroulant. Chaque catalogue est marqué comme
Gouverné ou
Non gouverné.
Remarque : vous devez avoir au moins un catalogue dans
IBM Knowledge CatalogVous devez disposer du droit de publication dans un catalogue. Un administrateur peut activer si tous les objets virtuels sont publiés dans un catalogue gouverné sélectionné, ce qui empêche un utilisateur de publier dans un catalogue spécifié.
- Indiquez un schéma dans la zone Schéma .
Vous pouvez également créer un schéma en suivant ces étapes.
- Si vous avez le rôle d'ingénieur en Data Virtualization ou d'utilisateur, laissez le champ Schéma par défaut pour créer un schéma avec votre ID utilisateur.
- Si vous avez le rôle de gestionnaire de la Data Virtualization, laissez le champ Schéma par défaut pour créer un schéma avec votre ID utilisateur ou entrez le nouveau nom du schéma dans le champ Schéma.
- Cliquez sur Virtualiser pour terminer le processus.
Lorsque
la fenêtre de statut s'ouvre, vous pouvez choisir d'afficher vos données virtualisées
ou de virtualiser d'autres données.