0 / 0
Torna alla versione inglese della documentazione
Sorgenti di dati supportate in Data Virtualization
Ultimo aggiornamento: 26 nov 2024
Sorgenti di dati e tipi di dati supportati nella Data Virtualization

Data Virtualization supporta le seguenti fonti di dati relazionali e non relazionali su 'IBM Cloud Pak® for Data as a Service.

Non è possibile connettersi a un'origine dati come connessione a una connessione della piattaforma esistente se la connessione della piattaforma utilizza l'integrazione Cloud, Secure Gatewayo Satellite Link. Queste funzioni non sono supportate da Data Virtualization quando ci si connette alle connessioni della piattaforma. Viene visualizzato un messaggio di errore simile aCannot reach the network destination of the data source. È possibile impostare l'origine dati utilizzando Cloud integration, Secure Gateway o Satellite Link e fornire il nome host o l'endpoint IP direttamente a Data Virtualization come nuova connessione.

Limiti di dimensione
Data Virtualization supporta la virtualizzazione di tabelle con una dimensione di riga fino a 1 MB e fino a 2048 colonne in una tabella. Tuttavia, il numero di colonne che Data Virtualization può prevedere dipende da molti fattori, come i tipi di dati delle colonne. Attualmente, l'anteprima è limitata a 200 colonne.
Attributi commento
Quando vengono create le tabelle virtuali, Data Virtualization non include gli attributi di commento assegnati agli oggetti di origine dati. Questa limitazione si applica a tutte le origini dati.
Tipi di dati
Alcuni tipi di dati dell'origine dati potrebbero non essere supportati da Data Virtualization. Queste limitazioni sono documentate nelle tabelle seguenti. Data Virtualization può anche mappare alcuni tipi di dati dell'origine dati in tipi di dati alternativi. Queste associazioni si basano sulle associazioni Db2® Big SQL sottostanti. Per ulteriori informazioni, vedi Tipi di dati in Db2 Big SQL.

Origini dati IBM

La tabella seguente elenca le fonti di dati IBM® a cui è possibile collegarsi da Data Virtualization.

Tabella 1. Origini dati IBM supportate
Connettore Limitazioni Ulteriori informazioni
IBM Cloud® Databases for MongoDB IBM Cloud Databases for MongoDB è disponibile come beta.

I seguenti tipi di dati 'MongoDB sono supportati da Data Virtualization: INT32, INT64, DOUBLE, STRING, BOOLEAN, DATE e BINARY.

 
IBM Cloud Databases for MySQL    
IBM Cloud Database per PostgreSQL  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

IBM Cloud Object Storage

Questa connessione richiede un'attenzione particolare nella Data Virtualization. Vedere Connessione a IBM Cloud Object Storage in Data Virtualization.

Per le limitazioni, vedere Sorgenti dati nell'archiviazione a oggetti in Data Virtualization.

 
IBM Data Virtualization Manager for z/OS® Non è possibile connettersi a Data Virtualization Manager for z/OS se la connessione utilizza l'integrazione Cloud, Secure Gatewayo Satellite Link. Queste funzioni non sono supportate da Data Virtualization. Verrà visualizzato un messaggio di errore simile aCannot reach the network destination of the data source.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

IBM Db2
  • I tipi NCHAR e NVARCHAR non sono supportati in Data Virtualization.
  • Db2 utilizza un tipo DECFLOAT, che Data Virtualization imposta come DOUBLE. Questa associazione influenza il modo in cui vengono restituiti valori specifici.
  • Db2 utilizzano i tipi DISTINCT, che Data Virtualization imposta come BLOB.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

IBM Db2 Big SQL  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

IBM Db2 for i  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

IBM Db2 for z/OS  
IBM Db2 on Cloud I tipi NCHAR e NVARCHAR non sono supportati in Data Virtualization.  
IBM Db2 Warehouse    
IBM Informix® I tipi di dati INTERVAL, BIGINT e BIGSERIAL non sono supportati in Data Virtualization. Per ulteriori informazioni, consultare Eccezioni che si verificano quando si utilizza il Informix driverConnect for JDBC .
IBM Netezza® Performance Server
  • I tipi di dati BLOB, XML e CLOB 'Netezza non sono supportati in Data Virtualization.
  • Quando si utilizza un'istruzione SELECT o si visualizzano in anteprima dati LOB superiori a 64 kB, Data Virtualization tronca i dati a soli 64 K byte.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

IBM Planning Analytics
  • La Data Virtualization può virtualizzare solo le viste di TM1® con una dimensione di colonna.
  • L'aggregazione non può essere spostata in basso a TM1. Se una query relativa a TM1 contiene un'operazione di aggregazione come COUNT, SUM, AVG, MAX, MIN o GROUP BY, è possibile aggiungere la seguente opzione server.
    alter server qplex options (add DB2_GROUP_BY 'N') 
  • Data Virtualization supporta solo i tipi di dati VARCHAR e DOUBLE in TM1.
  • TM1 non riconosce SQL. Il linguaggio di query nativo di TM1 è MDX, che non ha il concetto di push down. Pertanto, questa origine dati non è configurata per supportare il push down del predicato ottimale.
 
IBM Data Virtualization
Importante: Non creare una connessione all'istanza di Data Virtualization.
 

Origini dati di terze parti

La tabella seguente elenca le fonti di dati di terze parti a cui è possibile collegarsi da Data Virtualization.

Tabella 2. Origini dati di terze parti supportate
Connettore Limitazioni Ulteriori informazioni
Amazon RDS for MySQL
  • È necessario creare solo una connessione ad un database su un'origine dati MySQL per evitare righe duplicate nella pagina Virtualizza . MySQL non supporta l'isolamento del database.
  • I tipi di BIT non sono supportati in Data Virtualization.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Amazon RDS for Oracle
  • Quando si utilizza un'istruzione SELECT o si visualizzano in anteprima dati LOB superiori a 64 kB, Data Virtualization tronca i dati a soli 64 K byte.
  • I seguenti tipi di dati vengono convertiti nella Data Virtualization:
    • INTERVAL e JSON convertiti in VARCHAR.
    • I tipi di caratteri nazionali vengono convertiti in CHAR, VARCHAR o CLOB.
    • TIMESTAMP e TIMESTAMP WITH LOCAL TIME ZONE si convertono in TIMESTAMP.
    • Conversione XML in CLOB.
    • SMALLINT, INTEGER, BIGINT convertire in DECIMAL 4.0, DECIMAL 9.0e DECIMAL 18.0.
    • SMALLINT, INTEGER, BIGINT convertire in DECIMAL 4.0, DECIMAL 9.0e DECIMAL 18.0.
  • ˇ

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Amazon RDS for PostgreSQL  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Amazon Redshift I tipi di dati SPATIAL, SKETCH e SUPER vengono convertiti in CLOB in Data Virtualization.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Amazon S3

Questa connessione richiede un'attenzione particolare nella Data Virtualization. Vedere Connessione ad Amazon S3 in Data Virtualization.

  • Regole specifiche si applicano per la denominazione dei bucket in Amazon S3. Per ulteriori informazioni, vedi Regole di denominazione del bucket nella documentazione di Amazon S3 .
  • Se includi punti nel nome di un bucket, non puoi utilizzare l'indirizzamento in stile host virtuale su HTTPS, a meno che non esegui la tua convalida del certificato. I certificati di sicurezza utilizzati per l'hosting virtuale dei bucket non funzionano per i bucket con punti nei nomi.
  • Con AWS PrivateLink per Amazon S3, puoi eseguire il provisioning di endpoint VPC (interface endpoints) nel tuo VPC (virtual private cloud). Non è possibile utilizzare questi endpoint nell' URL endpoint quando si crea una connessione a una origine dati Amazon S3 . Questo tipo di endpoint non è supportato. È necessario utilizzare l'endpoint standard per Amazon S3, ad esempio http://s3.eu-central-1.amazonaws.com/.
  • Per ulteriori limitazioni, vedere Sorgenti di dati nello storage a oggetti in Data Virtualization.
 
Apache Derby  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Apache Hive
  • Nelle tabelle virtualizzate, è possibile elencare solo il valore dei tipi di dati complessi, come array, mappa, struct e tipo di unione. Qualsiasi altra operazione sul valore di questi tipi di dati complessi non è supportata.
  • Quando si utilizza un'istruzione SELECT o si visualizzano in anteprima dati LOB superiori a 64 kB, Data Virtualization tronca i dati a soli 64 K byte.
  • I tipi String e Binary nelle origini dati Hive ora si risolvono in VARCHAR(32672) e VARBINARY(32672) per impostazione predefinita, invece di CLOB e BLOB. Un amministratore Data Virtualization può configurare 'HIVE_MAX_STRING_SIZE e 'HIVE_MAX_BINARY_SIZE. Questo aggiornamento ottimizza le prestazioni SQL per le origini dati Hive . Un amministratore di Data Virtualization può configurare 'HIVE_MAX_STRING_SIZE e 'HIVE_MAX_BINARY_SIZE chiamando la procedura 'DVSYS.SETCONFIGPROPERTY.

    Ad esempio, per modificare la dimensione massima predefinita per il tipo di dati Hive BINARY in 2000, che si risolve in VARBINARY(2000), eseguire il seguente comando.

    db2 "call dvsys.setconfigproperty ('HIVE_MAX_BINARY_SIZE', '2000', '', ?, ?)"

    La dimensione minima è 1 e la dimensione massima consigliata 32672. È possibile superare 32672; tuttavia, i tipi STRING e BINARY si risolveranno in tipi CLOB e BLOB , che possono causare l'esito negativo di alcune query.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Ceph

Questa connessione richiede un'attenzione particolare nella Data Virtualization. Vedere Connessione a Ceph in Data Virtualization.

Per le limitazioni, vedere Sorgenti di dati nell'archiviazione a oggetti in Data Virtualization.

 
Cloudera Impala  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

S3 generico

Per le limitazioni, vedere Sorgenti di dati nell'archiviazione a oggetti in Data Virtualization.

 
Google BigQuery

Questa connessione richiede un'attenzione particolare nella Data Virtualization. Vedere Connessione a Google BigQuery in Data Virtualization.

  • Nell'origine dati 'Google BigQuery, Data Virtualization non supporta l'uso dell'istruzione SELECT per le colonne con tipo di dati 'RECORD.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Greenplum  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

MariaDB
  • I tipi BIT, LONGTEXT e LONGBLOB non sono supportati in Data Virtualization.
  • È necessario creare solo una connessione ad un database su un'origine dati MariaDB per evitare righe duplicate nella pagina Virtualizza . MariaDB non supporta l'isolamento del database.
  • È necessario disporre dell'autorizzazione di amministratore per l'origine dati MariaDB per operazioni avanzate come la raccolta di statistiche.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Microsoft Azure Data Lake Storage    
Microsoft Azure SQL Database    
Microsoft SQL Server
  • Quando si utilizza un'istruzione SELECT o si visualizzano in anteprima dati LOB superiori a 64 kB, Data Virtualization tronca i dati a soli 64 K byte.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

MongoDB
  • I tipi BIT, LONGTEXT e LONGBLOB non sono supportati in Data Virtualization.
  • È necessario disporre dell'autorizzazione di amministratore per l'origine dati MongoDB per operazioni avanzate come la raccolta di statistiche.
 
MySQL

(SQL Community Edition)

(SQL Enterprise Edition)

  • È necessario creare solo una connessione ad un database su un'origine dati MySQL per evitare righe duplicate nella pagina Virtualizza . MySQL non supporta l'isolamento del database.
  • I tipi di BIT non sono supportati in Data Virtualization.
  • La funzione BIGINT non è supportata con operazioni di set come INTERSECT, INTERSECT ALL, EXCEPT, EXCEPT ALL in Data Virtualization.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Oracle
  • Quando si utilizza un'istruzione SELECT o si visualizzano in anteprima dati LOB superiori a 64 kB, Data Virtualization tronca i dati a soli 64 K byte.
  • I seguenti tipi di dati vengono convertiti nella Data Virtualization:
    • INTERVAL e JSON convertiti in VARCHAR.
    • I tipi di caratteri nazionali vengono convertiti in CHAR, VARCHAR o CLOB.
    • TIMESTAMP e TIMESTAMP WITH LOCAL TIME ZONE si convertono in TIMESTAMP.
    • Conversione XML in CLOB.
    • SMALLINT, INTEGER, BIGINT convertire in DECIMAL 4.0, DECIMAL 9.0e DECIMAL 18.0.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

PostgreSQL  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Salesforce.com  

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

SAP ASE    
SAP OData
Non è possibile visualizzare in anteprima o interrogare tabelle non leggibili per i motivi riportati di seguito:
  • L'origine dati SAP OData potrebbe avere accesso in sola scrittura. In tali casi, la modifica delle autorizzazioni utente non evita questo problema.
  • L'origine dati SAP OData ha accesso in lettura, ma richiede filtri. Questa limitazione significa che non è possibile visualizzare l'anteprima dei dati, ma è possibile leggerli se si specificano i filtri.
 
Snowflake

Questa connessione richiede un'attenzione particolare nella Data Virtualization. Vedere Connessione a Snowflake in Data Virtualization.

  • I tipi di dati ARRAY, GEOGRAPHY e VARIANT vengono convertiti in VARCHAR.
  • Data Virtualization non supporta l'endpoint URL di Okta.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Teradata

Teradata JDBC Driver 17.00 Copyright (C) 2024 di Teradata. Tutti i diritti riservati. IBM fornisce l'utilizzo integrato del driver JDBC Teradata sotto licenza da Teradata esclusivamente per l'utilizzo come parte dell'offerta del servizio IBM Watson® .

  • Il tipo di dati XML 'Teradata non è supportato in Data Virtualization. Il tipo di dati XML viene convertito in CLOB.
  • I dati DECIMAL sono supportati da 34 cifre con DECFLOAT. Le colonne di dati che superano questo limite devono essere modificate in DOUBLE durante la virtualizzazione.
  • I seguenti tipi di dati vengono convertiti nella Data Virtualization:
    • Query che includono un'operazione di confronto di stringhe come un predicato GROUP BY o WHERE rispetto ai dati CHAR o VARCHAR per gestire la sensibilità al maiuscolo / minuscolo.
    • VARBYTE viene convertito in VARCHAR per i dati bit.
    • BYTE viene convertito in BINARY.
    • BYTEINT viene convertito in SMALLINT.
    • TIME ZONE BEARING viene convertito in TIME e TIMESTAMP.
    • PERIOD, DISTINCT, DATASET e ARRAY vengono convertiti in BLOB.
    • NUMBER viene convertito in DOUBLE.
    • YEAR, YEAR TO MONTH, DAY, DAY TO MINUTE, HOUR TO MINUTE, MONTH, HOUR e MINUTE vengono convertiti in INTEGER.
    • DAY TO SECOND, HOUR TO SECOND, MINUTE TO SECOND, SECOND viene convertito in DECIMAL.
  • Quando si utilizza un'istruzione SELECT o si visualizzano in anteprima dati LOB superiori a 64 kB, Data Virtualization tronca i dati a soli 64 K byte.

Questa connessione è ottimizzata per sfruttare le funzionalità di query in questa origine dati.

Sorgenti di dati nell'archiviazione a oggetti nella Data Virtualization

È possibile utilizzare i dati memorizzati come file su origini dati IBM Cloud Object Storage, Amazon S3, Ceph, o Generic S3 per creare tabelle virtuali. Per accedere ai dati memorizzati nell'archivio oggetti cloud, è necessario creare una connessione all'origine dati in cui si trovano i file.

È possibile segmentare o combinare i dati da uno o più file per creare una tabella virtuale. L'accesso ai file nell'archiviazione a oggetti in Data Virtualization si basa sulle funzionalità di Db2 Big SQL che utilizzano il supporto per le tabelle esterne Hadoop. Per ulteriori informazioni, consultare Istruzione CREATE TABLE (HADOOP).

Terminologia

I bucket e le partizioni svolgono ruoli importanti nell'organizzazione dei dati. I seguenti componenti sono elementi chiave dell'archiviazione oggetti.
  • Un bucket è un'astrazione logica utilizzata per fornire un contenitore per i dati. Non esiste alcun concetto di cartella nell'archiviazione oggetti; solo bucket e chiavi. I bucket possono essere creati solo nell'interfaccia dell'origine dati di archiviazione oggetti. Non possono essere creati in Data Virtualization. I nomi bucket devono essere univoci e rispettare le regole del provider di archiviazione oggetti. Queste regole spesso includono la limitazione del nome a 3-63 caratteri con solo lettere minuscole, numeri e trattini. I nomi bucket devono iniziare e terminare con una lettera minuscola o un numero. Quando Data Virtualization accede ai dati nell'archiviazione a oggetti, il nome del bucket deve essere unico per tutte le connessioni all'archiviazione a oggetti.
  • Un percorso file è il percorso completo del file in cui si desidera memorizzare i dati. L'implementazione del file system S3 consente ai file di lunghezza zero di essere considerati come directory e i nomi file che contengono una barra (/) vengono considerati come directory nidificate. Il percorso file include il nome bucket, un percorso file facoltativo e un nome file. Nell'archivio oggetti, il percorso file viene utilizzato quando viene creata una tabella. Tutti i file nello stesso percorso contribuiscono ai dati della tabella. È possibile aggiungere ulteriori dati aggiungendo un altro file al percorso file.
  • Una partizione sono dati raggruppati in base a un attributo comune nello schema. Il partizionamento divide i dati in più percorsi di file, trattati come directory. La Data Virtualization può scoprire e utilizzare le partizioni per ridurre la quantità di dati che le query devono elaborare, migliorando così le prestazioni delle query che utilizzano predicati sulle colonne del partizionamento.

Best practice

formati file
Data Virtualization supporta i formati di file PARQUET (o PARQUETFILE), ORC (optimized row columnar), CSV (comma-separated values), TSV (tab-separated values) e JSON. Non sono supportati altri formati file.
  • Per PARQUET (o PARQUETFILE), le estensioni file non sono richieste. I metadati vengono estratti dal file di dati.
  • Per ORC, le estensioni file non sono richieste. I metadati vengono estratti dal file di dati.
  • Per i file CSV e TSV:
    • È richiesta l'estensione file .csv o .tsv appropriata, come segue:
      • CSV: l'estensione file .csv è obbligatoria e il contenuto del file deve seguire le specifiche per i valori separati da virgole.
      • TSV: l'estensione del file .tsv è obbligatoria e il contenuto del file deve seguire le specifiche per i valori separati da tabulazione.
    • Un parametro facoltativo può essere utilizzato per specificare un carattere delimitatore stringa (quoteChar) che circonda i valori dei campi nei file CSV e TSV.
      • Le prestazioni della query dei dati potrebbero essere influenzate negativamente se viene specificato quoteChar .
      • Il valore predefinito non è un delimitatore (non specificato).
      • Il valore per quoteChar deve essere un singolo carattere che non può essere uno spazio (vuoto), una barra rovesciata, una tabulazione, una virgola o un carattere di nuova riga (\n).
      • Se il valore della stringa contiene il delimitatore di stringa (quoteChar), è possibile utilizzare la barra retroversa (\) per eseguire l'escape del delimitatore di stringa.
  • Per i file JSON, è richiesta l'estensione file .json . I file JSON devono essere codificati in modo che ogni linea sia un oggetto JSON valido. Le righe devono essere separate da un carattere di nuova riga (\n). Il formato di testo delle righe JSON, chiamato anche JSON delimitato da nuova riga, è l'unico formato JSON supportato. Questo formato memorizza i dati strutturati che possono essere elaborati un record alla volta.
Nota: tutti gli altri formati file restituiscono un errore. Per ulteriori informazioni, vedi Messaggio di errore quando tenti di utilizzare un formato file non supportato in Cloud Object Storage.
Organizzazione dei dati
  • Evitare di utilizzare caratteri alfanumerici nei nomi delle colonne in quanto potrebbero interferire con la compatibilità Hive . Qualsiasi carattere che non sia un carattere alfanumerico o il carattere di sottolineatura viene codificato come _xNNNN, dove _xNNNN è il valore esadecimale del carattere. Se si desidera visualizzare correttamente i nomi colonna, abilitare l'opzione allownonalphanumeric completando la seguente procedura:
    1. Accedere al pod principale nell'istanza Data Virtualizationc-db2u-dv-db2u-0).
    2. Eseguire il seguente comando per modificare la configurazione in modo da includere l'opzione allownonalphanumeric :
      db2uctl adm bigsql config --key bigsql.catalog.identifier.mappingrules --value allownonalphanumeric,allowleadingdigits,allowreservedwords
    3. Eseguire il seguente comando per riavviare Big SQL:
      su - db2inst1 
      bigsql stop ; 
      bigsql start 
      
  • Se si accede ai dati di archiviazione oggetti tramite una tabella virtualizzata, i file che si desidera virtualizzare devono trovarsi all'interno di un singolo percorso file e all'interno di un singolo bucket e il bucket deve includere almeno un file che si aggiunge al carrello. Tutti i file in questo percorso file fanno parte della tabella virtualizzata. Quando più dati vengono aggiunti alla tabella (nuovi file vengono creati nel percorso file), i dati sono visibili quando si accede alla tabella virtualizzata. Tutti i file nel percorso file devono utilizzare lo stesso formato file in modo che siano virtualizzati come una tabella.
  • Se si desidera virtualizzare i file in più percorsi file come una tabella, è possibile virtualizzare il bucket che contiene tutti i file. Ad esempio, se si dispone di percorsi file A/B/C/T1a, A/B/C/T1b, A/B/D/T1ce A/B/D/T1d, è possibile virtualizzare il percorso file A/B/. Tutti i file in tale percorso e i percorsi nidificati faranno parte dell'oggetto accessibile.
  • Non creare due oggetti (tabelle, schemi o colonne) con lo stesso nome, anche se si utilizzano identificatori delimitati e maiuscole e minuscole. Ad esempio, non è possibile avere una tabella t1 e un'altra tabella denominata T1. Questi nomi sono considerati nomi duplicati nell'archivio oggetti (Hive). Per ulteriori informazioni, vedi Identificativi.
  • Db2 supporta una gamma più ampia di identificativi delimitati validi rispetto a Hive . Alcuni nomi di identificativi specificati quando si creano tabelle virtualizzate nell'archivio oggetti potrebbero essere modificati prima di essere accettati nel catalogo Hive . L'associazione viene eseguita automaticamente. Per ulteriori informazioni, vedi Identificativi.
  • Quando vengono aggiunti nuovi dati al percorso file per una tabella virtualizzata, eseguire il seguente comando per assicurarsi che la cache dei metadati sia aggiornata per vedere i nuovi dati.
    CALL SYSHADOOP.HCAT_CACHE_SYNC(<schema>, <object>)

    Per ulteriori informazioni, consultare la procedura memorizzata HCAT_CACHE_SYNC.

  • Quando le nuove partizioni vengono aggiunte al percorso file per la tabella virtualizzata, fare clic su Aggiorna partizioni nel menu di overflow nella pagina Dati virtualizzati per identificare nuove partizioni.

    È inoltre possibile eseguire il seguente comando nell'interfaccia SQL per identificare le nuove partizioni che sono state aggiunte.

    MSCK REPAIR TABLE <table-name> 

    Per ulteriori informazioni, consultare MSCK REPAIR TABLE.

Ottimizzazione delle prestazioni delle query
  • Utilizzare un formato file compatto come ORC o Parchetto per ridurre al minimo il traffico di rete, migliorando le prestazioni delle query.
  • Non utilizzare il tipo di dati STRING o TEXT. Utilizzare il tipo di dati VARCHAR (n), con n impostato su un valore appropriato per i dati della colonna. Utilizzare il seguente comando per modificare la tabella per definire una lunghezza appropriata per la colonna.
     ALTER TABLE <schema>.<table> ALTER COLUMN <col> SET DATA TYPE VARCHAR(<size>)
  • Partizionare i dati utilizzando il partizionamento in stile Hive . I dati partizionati sono raggruppati da un attributo comune. La Data Virtualization può utilizzare le partizioni per ridurre la quantità di dati che le query devono elaborare. La query dell'intero dataset potrebbe non essere possibile o addirittura necessaria. È possibile utilizzare i predicati nelle query che includono le colonne di partizionamento per migliorare le prestazioni.

    Ad esempio, una tabella school_records partizionata su una colonna anno, separa i valori per anno in percorsi file separati. Una condizione WHERE come YEAR=1993, YEAR IN (1996,1995)o YEAR BETWEEN 1992 AND 1996 esegue la scansione solo dei dati nel percorso file appropriato per risolvere la query.

    Esempio di partizioni nell'archivio oggetti cloud.
  • Definire in modo accurato i tipi di colonna partizionati. Per impostazione predefinita, le colonne di caratteri partizionati vengono considerate di tipo STRING, che non è consigliato. Ridefinire le colonne partizionate in un tipo di dati appropriato.
  • Raccogliere statistiche sui dati sottoposti a query. Data Virtualization utilizza il comando 'ANALYZE per raccogliere statistiche sulle tabelle virtualizzate su storage a oggetti. È possibile raccogliere le statistiche nel client Web o utilizzando SQL. Per ulteriori informazioni, vedere Raccolta di statistiche in Data Virtualization.

Limitazioni

  • Nella Data Virtualization è supportata solo la codifica dei caratteri UTF-8 per i file di testo in formato CSV, TSV o JSON. I formati binari Cloud Object Storage come ORC o PARQUET non vengono influenzati perché codificano in modo trasparente i tipi di carattere.
  • La Data Virtualization non supporta il tipo di dati TIME in una tabella virtualizzata sull'archiviazione a oggetti.
  • L'anteprima degli asset in Cloud Object Storage mostra solo le prime 200 colonne della tabella.
  • Prima di rimuovere una connessione a Cloud Object Storage, è necessario rimuovere tutte le tabelle virtualizzate nella connessione di archiviazione oggetti. Se una connessione viene rimossa e si tenta di rimuovere una tabella in tale connessione, viene visualizzato un errore. Consultare Messaggio di errore delle credenziali quando si rimuove una tabella virtualizzata nell'archivio oggetti.
  • Se il bucket non è specificato nelle proprietà di connessione, la connessione è globale. In questo caso, includere il nome bucket nel percorso file. È possibile specificare fino a una connessione globale in un'istanza di Data Virtualization.

Vedere anche Limitazioni nell' istruzione CREATE TABLE (HADOOP).

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni