0 / 0
Retourner à la version anglaise de la documentation
Sources de données prises en charge dans la Data Virtualization
Dernière mise à jour : 26 nov. 2024
Sources et types de données pris en charge dans la Data Virtualization

LaData Virtualization prend en charge les sources de données relationnelles et non relationnelles suivantes sur " IBM Cloud Pak® for Data as a Service".

Vous ne pouvez pas vous connecter à une source de données en tant que connexion à une connexion de plateforme existante si la connexion de plateforme utilise l'intégration de cloud, Secure Gatewayou Satellite Link. Ces fonctionnalités ne sont pas prises en charge par la Data Virtualization lorsque vous vous connectez aux connexions de la plate-forme. Vous voyez un message d'erreur similaire àCannot reach the network destination of the data source. Vous pouvez configurer la source de données en utilisant l'intégration dans le nuage, Secure Gateway ou Satellite Link et fournir le nom d'hôte ou le point d'extrémité IP directement à la Data Virtualization en tant que nouvelle connexion.

limites de taille
Data Virtualization prend en charge la virtualisation des tables avec une taille de ligne allant jusqu'à 1 Mo, et jusqu'à 2048 colonnes dans une table. Cependant, le nombre de colonnes que la Data Virtualization peut prévisualiser dépend de nombreux facteurs, tels que les types de données des colonnes. Actuellement, l'aperçu est limité à 200 colonnes.
Attributs de commentaire
Lors de la création de tables virtuelles, Data Virtualization n'inclut pas les attributs de commentaires qui ont été attribués aux objets de la source de données. Cette limitation s'applique à toutes les sources de données.
Types de données
Certains types de données de votre source de données peuvent ne pas être pris en charge par la Data Virtualization. Ces limitations sont documentées dans les tableaux suivants. La Data Virtualization peut également faire correspondre certains types de données de votre source de données à d'autres types de données. Ces mappages sont basés sur les mappages Db2® Big SQL sous-jacents. Pour plus d'informations, voir Types de données dans Db2 Big SQL.

Sources de données IBM

Le tableau suivant répertorie les sources de données IBM® auxquelles vous pouvez vous connecter à partir de Data Virtualization.

Tableau 1. Sources de données IBM prises en charge
Connecteur Limitations Plus d'information
IBM Cloud® Databases for MongoDB IBM Cloud Databases for MongoDB est disponible en tant que bêta.

Les types de données " MongoDB suivants sont pris en charge par la Data Virtualization: INT32, INT64, DOUBLE, STRING, BOOLEAN, DATE et BINARY.

 
IBM Cloud Databases for MySQL    
IBM Cloud Bases de données pour PostgreSQL  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

IBM Cloud Object Storage

Cette connexion nécessite une attention particulière dans le cadre de la Data Virtualization. Voir Connexion à IBM Cloud Object Storage dans la Data Virtualization.

Pour les limitations, voir Sources de données dans le stockage d'objets dans la Data Virtualization.

 
IBM Data Virtualization Manager for z/OS® Vous ne pouvez pas vous connecter à Data Virtualization Manager for z/OS si la connexion utilise l'intégration de cloud, Secure Gatewayou Satellite Link. Ces fonctions ne sont pas prises en charge par la Data Virtualization. Un message d'erreur similaire à celui-ci s'affiche.Cannot reach the network destination of the data source.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

IBM Db2
  • Les types NCHAR et NVARCHAR ne sont pas pris en charge dans la Data Virtualization.
  • Db2 utilise un type DECFLOAT, que Data Virtualization définit par défaut comme DOUBLE. Ce mappage influence la façon dont les valeurs spécifiques sont renvoyées.
  • Db2 utilisent des types DISTINCT, que Data Virtualization définit par défaut comme BLOB.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

IBM Db2 Big SQL  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

IBM Db2 for i  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

IBM Db2 for z/OS  
IBM Db2 on Cloud Les types NCHAR et NVARCHAR ne sont pas pris en charge dans la Data Virtualization.  
IBM Db2 Warehouse    
IBM Informix® Les types de données INTERVAL, BIGINT et BIGSERIAL ne sont pas pris en charge par la Data Virtualization. Pour plus d'informations, voir Des exceptions se produisent lors de l'utilisation de la connectivité du pilote JDBC Informix.
IBM Netezza® Performance Server
  • Les types de données BLOB, XML et CLOB " Netezza ne sont pas pris en charge par la Data Virtualization.
  • Lorsque vous utilisez une instruction SELECT ou que vous prévoyez des données LOB supérieures à 64 kB, Data Virtualization tronque les données à 64 K octets seulement.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

IBM Planning Analytics
  • La Data Virtualization ne peut virtualiser que les vues TM1® avec une dimension de colonne.
  • L'agrégation ne peut pas être transférée vers TM1. Si une requête sur TM1 contient une opération d'agrégation telle que COUNT, SUM, AVG, MAX, MIN ou GROUP BY, vous pouvez ajouter l'option de serveur suivante.
    alter server qplex options (add DB2_GROUP_BY 'N') 
  • La Data Virtualization ne prend en charge que les types de données VARCHAR et DOUBLE dans TM1.
  • TM1 ne reconnaît pas SQL. Le langage de requête natif de TM1 est MDX, qui ne possède pas le concept de transfert de l'exécution sur la base de données. Par conséquent, cette source de données n'est pas configurée pour prendre en charge le prédicat de prédicat optimal.
 
IBM Data Virtualization
Il est important de ne pas créer de connexion à votre instance de virtualisation des données : Ne créez pas de connexion à votre instance de Data Virtualization.
 

Sources de données de tiers

Le tableau suivant répertorie les sources de données tierces auxquelles vous pouvez vous connecter à partir de Data Virtualization.

Tableau 2. Sources de données tierces prises en charge
Connecteur Limitations Plus d'information
Amazon RDS for MySQL
  • Vous ne devez créer qu'une seule connexion à une base de données sur une source de données MySQL pour éviter les lignes en double sur la page Virtualiser . MySQL ne prend pas en charge l'isolement de base de données.
  • Les types de BIT ne sont pas pris en charge dans la Data Virtualization.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Amazon RDS for Oracle
  • Lorsque vous utilisez une instruction SELECT ou que vous prévoyez des données LOB supérieures à 64 kB, Data Virtualization tronque les données à 64 K octets seulement.
  • Les types de données suivants sont convertis dans le cadre de la Data Virtualization:
    • INTERVAL et JSON sont convertis en VARCHAR.
    • Types de caractères nationaux convertis en CHAR, VARCHAR ou CLOB.
    • TIMESTAMP et TIMESTAMP WITH LOCAL TIME ZONE conversion en TIMESTAMP.
    • Conversion XML en CLOB.
    • SMALLINT, INTEGER, BIGINT est converti en DECIMAL 4.0, DECIMAL 9.0et DECIMAL 18.0.
    • SMALLINT, INTEGER, BIGINT est converti en DECIMAL 4.0, DECIMAL 9.0et DECIMAL 18.0.
  • ˇ

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Amazon RDS for PostgreSQL  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Amazon Redshift Les types de données SPATIAL, SKETCH et SUPER sont convertis en CLOB dans la Data Virtualization.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Amazon S3

Cette connexion nécessite une attention particulière dans le cadre de la Data Virtualization. Voir Connexion à Amazon S3 dans Data Virtualization.

  • Des règles spécifiques s'appliquent pour nommer des compartiments dans Amazon S3. Pour plus d'informations, voir Bucket naming rules dans la documentation Amazon S3 .
  • Si vous incluez des points dans un nom de segment, vous ne pouvez pas utiliser de mode d'adresse-hôte virtuel sur HTTPS, sauf si vous effectuez votre propre validation de certificat. Les certificats de sécurité utilisés pour l'hébergement virtuel de seaux ne fonctionnent pas pour les seaux avec des points dans leur nom.
  • Avec AWS PrivateLink for Amazon S3, vous pouvez mettre à disposition des noeuds finaux VPC d'interface (noeuds finaux d'interface) dans votre cloud privé virtuel (VPC). Vous ne pouvez pas utiliser ces noeuds finaux dans l' URL de noeud final lorsque vous créez une connexion à une source de données Amazon S3 . Ce type de noeud final n'est pas pris en charge. Vous devez utiliser le noeud final standard pour Amazon S3, par exemple, http://s3.eu-central-1.amazonaws.com/.
  • Pour plus de limitations, voir Sources de données dans le stockage objet dans la Data Virtualization.
 
Apache Derby  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Apache Hive
  • Dans les tables virtualisées, vous pouvez répertorier uniquement la valeur des types de données complexes, comme un tableau, une carte, une structure et un type d'union. Toute autre opération sur la valeur de ces types de données complexes n'est pas prise en charge.
  • Lorsque vous utilisez une instruction SELECT ou que vous prévoyez des données LOB supérieures à 64 kB, Data Virtualization tronque les données à 64 K octets seulement.
  • Les types de chaîne et de fichier binaire dans les sources de données Hive sont maintenant résolus par VARCHAR(32672) et VARBINARY(32672) par défaut, au lieu de CLOB et BLOB. Un administrateur de la Data Virtualization peut configurer 'HIVE_MAX_STRING_SIZE et 'HIVE_MAX_BINARY_SIZE. Cette mise à jour optimise les performances SQL pour les sources de données Hive . Un administrateur de la Data Virtualization peut configurer 'HIVE_MAX_STRING_SIZE et 'HIVE_MAX_BINARY_SIZE en appelant la procédure 'DVSYS.SETCONFIGPROPERTY

    Par exemple, pour remplacer la taille maximale par défaut du type de données Hive BINARY par 2000, qui est résolu en VARBINARY(2000), exécutez la commande suivante.

    db2 "call dvsys.setconfigproperty ('HIVE_MAX_BINARY_SIZE', '2000', '', ?, ?)"

    La taille minimale est 1 et la taille maximale recommandée est 32672. Vous pouvez dépasser 32672 ; cependant, les types STRING et BINARY sont résolus en CLOB et BLOB, ce qui peut entraîner l'échec de certaines requêtes.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Ceph

Cette connexion nécessite une attention particulière dans le cadre de la Data Virtualization. Voir Connexion à Ceph dans Data Virtualization.

Pour les limitations, voir Sources de données dans le stockage d'objets dans la Data Virtualization.

 
Cloudera Impala  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

S3 générique

Pour les limitations, voir Sources de données dans le stockage d'objets dans la Data Virtualization.

 
Google BigQuery

Cette connexion nécessite une attention particulière dans le cadre de la Data Virtualization. Voir Connexion à Google BigQuery dans Data Virtualization.

  • Dans la source de données 'Google BigQuery, Data Virtualization ne prend pas en charge l'utilisation de l'instruction SELECT pour les colonnes dont le type de données est 'RECORD.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Greenplum  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

MariaDB
  • Les types BIT, LONGTEXT et LONGBLOB ne sont pas pris en charge par la Data Virtualization.
  • Vous ne devez créer qu'une seule connexion à une base de données sur une source de données MariaDB pour éviter les lignes en double sur la page Virtualiser . MariaDB ne prend pas en charge l'isolement de base de données.
  • Vous devez disposer des droits d'administrateur pour la source de données MariaDB pour les opérations avancées telles que la collecte de statistiques.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Microsoft Azure Data Lake Storage    
Microsoft Azure SQL Database    
Microsoft SQL Server
  • Lorsque vous utilisez une instruction SELECT ou que vous prévoyez des données LOB supérieures à 64 kB, Data Virtualization tronque les données à 64 K octets seulement.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

MongoDB
  • Les types BIT, LONGTEXT et LONGBLOB ne sont pas pris en charge par la Data Virtualization.
  • Vous devez disposer des droits d'administrateur pour la source de données MongoDB pour les opérations avancées telles que la collecte de statistiques.
 
MySQL

(Mon édition de communauté SQL)

(My SQL Enterprise Edition)

  • Vous ne devez créer qu'une seule connexion à une base de données sur une source de données MySQL pour éviter les lignes en double sur la page Virtualiser . MySQL ne prend pas en charge l'isolement de base de données.
  • Les types de BIT ne sont pas pris en charge dans la Data Virtualization.
  • La fonction BIGINT n'est pas prise en charge avec les opérations d'ensemble telles que INTERSECT, INTERSECT ALL, EXCEPT, EXCEPT ALL dans la Data Virtualization

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Oracle
  • Lorsque vous utilisez une instruction SELECT ou que vous prévoyez des données LOB supérieures à 64 kB, Data Virtualization tronque les données à 64 K octets seulement.
  • Les types de données suivants sont convertis dans le cadre de la Data Virtualization:
    • INTERVAL et JSON sont convertis en VARCHAR.
    • Types de caractères nationaux convertis en CHAR, VARCHAR ou CLOB.
    • TIMESTAMP et TIMESTAMP WITH LOCAL TIME ZONE conversion en TIMESTAMP.
    • Conversion XML en CLOB.
    • SMALLINT, INTEGER, BIGINT est converti en DECIMAL 4.0, DECIMAL 9.0et DECIMAL 18.0.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

PostgreSQL  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Salesforce.com  

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

SAP ASE    
SAP OData
Vous ne pouvez pas prévisualiser ni interroger des tables non lisibles en raison des raisons suivantes :
  • La source de données SAP OData peut avoir un accès en écriture seule. Dans ce cas, la modification des droits utilisateur n'évite pas ce problème.
  • La source de données SAP OData dispose d'un accès en lecture, mais nécessite des filtres. Cette limitation signifie que vous ne pouvez pas prévisualiser les données, mais que vous pouvez les lire si vous spécifiez des filtres.
 
Snowflake

Cette connexion nécessite une attention particulière dans le cadre de la Data Virtualization. Voir Connexion à Snowflake dans Data Virtualization.

  • Les types de données ARRAY, GEOGRAPHY et VARIANT sont convertis en VARCHAR.
  • La Data Virtualization ne prend pas en charge le point de terminaison URL Okta.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Teradata

Teradata JDBC Driver 17.00 Copyright (C) 2024 par Teradata. All rights reserved. IBM fournit une utilisation intégrée du pilote Teradata JDBC sous licence de Teradata uniquement pour une utilisation dans le cadre de l'offre de services IBM Watson® .

  • Le type de données XML 'Teradata n'est pas pris en charge par la Data Virtualization. Le type de données XML est converti en CLOB.
  • Les données DECIMAL sont prises en charge à 34 chiffres avec DECFLOAT. Les colonnes de données qui dépassent cette limite doivent être éditées à DOUBLE pendant la virtualisation.
  • Les types de données suivants sont convertis dans le cadre de la Data Virtualization:
    • Requêtes qui incluent une opération de comparaison de chaînes telle qu'un prédicat GROUP BY ou WHERE sur des données CHAR ou VARCHAR pour gérer la sensibilité à la casse.
    • VARBYTE est converti en VARCHAR pour les données binaires.
    • BYTE est converti en BINARY.
    • BYTEINT est converti en SMALLINT.
    • TIME ZONE BEARING est converti en TIME et TIMESTAMP.
    • PERIOD, DISTINCT, DATASET et ARRAY sont convertis en BLOB.
    • NUMBER est converti en DOUBLE.
    • ANNÉE, ANNÉE EN MOIS, JOUR, JOUR EN MINUTE, HEURE EN MINUTE, MOIS, HEURE et MINUTE sont convertis en INTEGER.
    • JOUR EN SECONDE, HEURE EN SECONDE, MINUTE EN SECONDE, SECONDE est converti en DECIMAL.
  • Lorsque vous utilisez une instruction SELECT ou que vous prévoyez des données LOB supérieures à 64 kB, Data Virtualization tronque les données à 64 K octets seulement.

Cette connexion est optimisée pour tirer parti des fonctions de requête de cette source de données.

Sources de données dans le stockage d'objets dans la Data Virtualization

Vous pouvez utiliser des données stockées sous forme de fichiers sur des sources de données IBM Cloud Object Storage, Amazon S3, Ceph, ou Generic S3 pour créer des tables virtuelles. Pour accéder aux données stockées dans le stockage d'objets cloud, vous devez créer une connexion à la source de données dans laquelle se trouvent les fichiers.

Vous pouvez segmenter ou combiner des données à partir d'un ou de plusieurs fichiers pour créer une table virtuelle. L'accès aux fichiers dans le stockage objet dans la Data Virtualization est basé sur les capacités Db2 Big SQL qui utilisent le support des tables externes Hadoop. Pour plus d'informations, voir Instruction CREATE TABLE (HADOOP).

Terminologie

Les compartiments et les partitions jouent des rôles importants dans l'organisation des données. Les composants suivants sont des éléments clés de l' object storage.
  • Une Compartiment est une abstraction logique utilisée pour fournir un conteneur pour les données. Il n'y a pas de concept de dossier dans le stockage des objets ; seuls les seaux et les clés. Les compartiments ne peuvent être créés que dans l'interface de la source de données de stockage d'objets. Ils ne peuvent pas être créés dans le cadre de la Data Virtualization. Les noms de compartiment doivent être uniques et respecter les règles du fournisseur de stockage d'objets. Ces règles incluent souvent la restriction du nom à 3 à 63 caractères avec des lettres minuscules, des chiffres et des tirets uniquement. Les noms de compartiment doivent commencer et se terminer par une lettre minuscule ou un chiffre. Lorsque Data Virtualization données accède à des données dans le stockage d'objets, le nom de l'unité de stockage doit être unique pour toutes les connexions au stockage d'objets.
  • Un Chemin du fichier est le chemin d'accès complet au fichier dans lequel vous souhaitez stocker des données. L'implémentation du système de fichiers S3 permet de traiter les fichiers de longueur zéro comme des répertoires, et les noms de fichier contenant une barre oblique (/) sont traités comme des répertoires imbriqués. Le chemin d'accès au fichier inclut le nom de compartiment, un chemin de fichier facultatif et un nom de fichier. Dans le stockage des objets, le chemin d'accès au fichier est utilisé lorsqu'une table est créée. Tous les fichiers du même chemin contribuent aux données de table. Vous pouvez ajouter d'autres données en ajoutant un autre fichier au chemin d'accès au fichier.
  • Une partition est une donnée qui est regroupée par un attribut commun dans le schéma. Le partitionnement divise les données en plusieurs chemins de fichier, qui sont traités comme des répertoires. La Data Virtualization peut découvrir et utiliser des partitions pour réduire la quantité de données que les requêtes doivent traiter, ce qui peut améliorer les performances des requêtes qui utilisent des prédicats sur les colonnes de partitionnement.

Meilleures pratiques

Formats de fichier
La Data Virtualization prend en charge les formats de fichier PARQUET (ou PARQUETFILE), ORC (optimized row columnar), CSV (comma-separated values), TSV (tab-separated values) et JSON. Aucun autre format de fichier n'est pris en charge.
  • Pour PARQUET (ou PARQUETFILE), les extensions de fichier ne sont pas requises. Les métadonnées sont extraites du fichier de données.
  • Pour ORC, les extensions de fichier ne sont pas requises. Les métadonnées sont extraites du fichier de données.
  • Pour les fichiers CSV et TSV:
    • L'extension de fichier .csv ou .tsv appropriée est requise, comme suit:
      • CSV: l'extension de fichier .csv est requise et le contenu du fichier doit suivre les spécifications des valeurs séparées par des virgules.
      • TSV: l'extension de fichier .tsv est requise et le contenu du fichier doit respecter les spécifications des valeurs séparées par des tabulations.
    • Un paramètre facultatif peut être utilisé pour spécifier un caractère délimiteur de chaîne (quoteChar) qui entoure les valeurs de zone dans les fichiers CSV et TSV.
      • Les performances de l'interrogation des données peuvent être affectées négativement si quoteChar est spécifié.
      • La valeur par défaut n'est pas un délimiteur (non spécifié).
      • La valeur de quoteChar doit être un caractère unique qui ne peut pas être un espace (blanc), une barre oblique inversée, une tabulation, une virgule ou un caractère de retour à la ligne (\n).
      • Si la valeur de chaîne contient le délimiteur de chaîne (quoteChar), la barre oblique inversée (\) peut être utilisée pour échapper le délimiteur de chaîne.
  • Pour les fichiers JSON, l'extension de fichier .json est requise. Les fichiers JSON doivent être codés pour que chaque ligne soit un objet JSON valide. Les lignes doivent être séparées par un caractère de nouvelle ligne (\n). Le format de texte des lignes JSON, également appelé JSON délimité par des lignes, est le seul format JSON pris en charge. Ce format stocke les données structurées qui peuvent être traitées un enregistrement à la fois.
Remarque: tous les autres formats de fichier renvoient une erreur. Pour plus d'informations, voir Message d'erreur lorsque vous tentez d'utiliser un format de fichier non pris en charge dans Cloud Object Storage.
Organisation des données
  • Evitez d'utiliser des caractères alphanumériques dans les noms de colonne car cela pourrait interférer avec la compatibilité Hive . Tout caractère qui n'est pas un caractère alphanumérique ou un trait de soulignement est codé sous la forme _xNNNN, où _xNNNN est la valeur hexadécimale du caractère. Si vous souhaitez afficher correctement les noms de colonne, activez l'option allownonalphanumeric en procédant comme suit:
    1. Accédez au pod principal dans l'instance de Data Virtualizationc-db2u-dv-db2u-0).
    2. Exécutez la commande suivante pour éditer la configuration afin d'inclure l'option allownonalphanumeric :
      db2uctl adm bigsql config --key bigsql.catalog.identifier.mappingrules --value allownonalphanumeric,allowleadingdigits,allowreservedwords
    3. Exécutez la commande suivante pour redémarrer Big SQL:
      su - db2inst1 
      bigsql stop ; 
      bigsql start 
      
  • Si vos données de stockage d'objets sont accessibles via une table virtualisée, les fichiers que vous souhaitez virtualiser doivent se trouver dans un chemin de fichier unique et dans un compartiment unique, et le compartiment doit inclure au moins un fichier que vous ajoutez au panier. Tous les fichiers de ce chemin de fichier font partie de la table virtualisée. Lorsque des données supplémentaires sont ajoutées à la table (de nouveaux fichiers sont créés dans le chemin d'accès au fichier), les données sont visibles lorsque vous accédez à la table virtualisée. Tous les fichiers du chemin d'accès au fichier doivent utiliser le même format de fichier afin qu'ils soient virtualisés sous la forme d'une table.
  • Si vous souhaitez virtualiser les fichiers dans plusieurs chemins de fichier sous la forme d'une table, vous pouvez virtualiser le compartiment qui contient tous les fichiers. Par exemple, si vous avez des chemins de fichier A/B/C/T1a, A/B/C/T1b, A/B/D/T1c, et A/B/D/T1d, vous pouvez virtualiser le chemin de fichier A/B/. Tous les fichiers de ce chemin et de ce chemin imbriqué font partie de l'objet accessible.
  • Ne créez pas deux objets (tables, schémas ou colonnes) portant le même nom, même si vous utilisez des identificateurs délimités et des majuscules et des minuscules. Par exemple, vous ne pouvez pas disposer d'une table t1 et d'une autre table nommée T1. Ces noms sont considérés comme des noms en double dans la mémoire d'objets (Hive). Pour plus d'informations, voir Identificateurs.
  • Db2 prend en charge une plage d'identificateurs délimités valides plus large que celle prise en charge par Hive . Certains noms d'identificateur qui sont spécifiés lorsque vous créez des tables virtualisées sur une librairie peuvent être ajustés avant de pouvoir être acceptés dans le catalogue Hive . Le mappage est effectué automatiquement. Pour plus d'informations, voir Identificateurs.
  • Lorsque de nouvelles données sont ajoutées au chemin de fichier d'une table virtualisée, envisagez d'exécuter la commande suivante pour vous assurer que le cache de métadonnées est mis à jour pour afficher les nouvelles données.
    CALL SYSHADOOP.HCAT_CACHE_SYNC(<schema>, <object>)

    Pour plus d'informations, voir la procédure mémorisée HCAT_CACHE_SYNC.

  • Lorsque de nouvelles partitions sont ajoutées au chemin de fichier de la table virtualisée, cliquez sur Actualiser les partitions dans le menu déroulant dynamique de la page Données virtualisées pour identifier les nouvelles partitions.

    Vous pouvez également exécuter la commande suivante dans l'interface SQL pour identifier les nouvelles partitions qui ont été ajoutées.

    MSCK REPAIR TABLE <table-name> 

    Pour plus d'informations, voir MSCK REPAIR TABLE.

Optimisation des performances des requêtes
  • Utilisez un format de fichier compact tel que ORC ou Parquet pour réduire le trafic réseau, ce qui améliore les performances des requêtes.
  • N'utilisez pas le type de données STRING ou TEXT. Utilisez le type de données VARCHAR (n), avec n défini sur une valeur appropriée pour les données de colonne. Utilisez la commande suivante pour modifier la table afin de définir une longueur appropriée pour la colonne.
     ALTER TABLE <schema>.<table> ALTER COLUMN <col> SET DATA TYPE VARCHAR(<size>)
  • Partitionnez vos données à l'aide du partitionnement de style Hive . Les données partitionnées sont regroupées par attribut commun. La Data Virtualization peut utiliser des partitions pour réduire la quantité de données que les requêtes doivent traiter. Il n'est souvent pas nécessaire, ou même possible, d'interroger la totalité du jeu de données. Vous pouvez utiliser des prédicats dans vos requêtes qui incluent les colonnes de partitionnement pour améliorer les performances.

    Par exemple, une table school_records partitionnée sur une colonne d'année sépare les valeurs par année dans des chemins de fichier distincts. Une condition WHERE telle que YEAR=1993, YEAR IN (1996,1995)ou YEAR BETWEEN 1992 AND 1996 analyse uniquement les données du chemin de fichier approprié pour résoudre la requête.

    Exemple de partitions dans le stockage d'objets cloud.
  • Définissez les types de colonne partitionnée avec précision. Par défaut, les colonnes de caractères partitionnées sont supposées être de type STRING, ce qui n'est pas recommandé. Redéfinissez les colonnes partitionnées sur un type de données approprié.
  • Collectez des statistiques sur les données demandées. La Data Virtualization utilise la commande 'ANALYZE pour collecter des statistiques sur les tables virtualisées sur le stockage objet. Vous pouvez collecter des statistiques dans le client Web ou à l'aide de SQL. Pour plus d'informations, voir Collecte de statistiques dans la Data Virtualization.

Limitations

  • Seul le codage de caractères UTF-8 est pris en charge dans la Data Virtualization pour les fichiers texte au format CSV, TSV ou JSON. Les formats binaires Cloud Object Storage tels que ORC ou PARQUET ne sont pas affectés car ils codent de manière transparente les types de caractères.
  • La Data Virtualization ne prend pas en charge le type de données TIME dans une table virtualisée sur un stockage objet.
  • L'aperçu des actifs dans le stockage d'objets cloud affiche uniquement les 200 premières colonnes de la table.
  • Avant de supprimer une connexion à Cloud Object Storage, vous devez supprimer toutes les tables virtualisées de la connexion de stockage d'objets. Si une connexion est supprimée et que vous tentez de supprimer une table dans cette connexion, une erreur s'affiche. Voir Message d'erreur de données d'identification lorsque vous supprimez une table virtualisée dans le stockage d'objets.
  • Si le compartiment n'est pas spécifié dans les propriétés de connexion, la connexion est globale. Dans ce cas, incluez le nom du compartiment dans le chemin d'accès au fichier. Vous pouvez spécifier jusqu'à une connexion globale dans une instance de Data Virtualization.

Voir aussi Restrictions dans l'instruction CREATE TABLE (HADOOP).

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus