In Data Virtualization, è possibile virtualizzare e utilizzare i dati memorizzati come file sullo storage a oggetti.
È possibile virtualizzare i dati nei file nelle seguenti origini dati di archiviazione oggetti:
- IBM® Cloud Object Storage
- Amazon S3
- Ceph®
- S3 generico
Segmentare o combinare i dati da uno o più file per creare una tabella virtuale.
Informazioni su questa attività
Guardate il seguente video per una panoramica dei file virtualizzati in 'Cloud Object Storage in Data Virtualization.
Questo video fornisce un metodo visivo come alternativa alla procedura scritta in questa documentazione.
Procedura
- Nel menu di navigazione, fare clic su .
Per impostazione predefinita, il menu del servizio si apre nella pagina Origini dati .
- Nel menu del servizio, fare clic su , quindi fare clic su File .
Viene visualizzato l'elenco delle origini dati disponibili. È possibile restringere gli asset visualizzati utilizzando i filtri disponibili.
Se hai specificato un nome bucket quando imposti la connessione all'origine dati, fai clic su per espandere i dettagli della connessione di archiviazione oggetti per visualizzare le informazioni Tipo di servizio e Bucket . Se non hai specificato un nome bucket quando hai configurato la connessione dell'origine dati, puoi utilizzare il campo di input Bucket per trovare un bucket specifico nell'endpoint.
Se l'elenco di origini dati non viene visualizzato, fare clic su Aggiorna.
- Selezionare l'endpoint di archiviazione oggetti in cui si desidera sfogliare i file e i percorsi file.
Per Cloud Object Storage, l'endpoint è l'URL per l'archiviazione oggetti.
Viene visualizzato un elenco di percorsi file o bucket nell'endpoint. È possibile esplorare la struttura del percorso file oppure fare clic su
per visualizzare i dettagli del contenuto del primo file nel percorso file.
Non è possibile aggiungere il bucket al carrello. Per aggiungere un percorso file al carrello, è necessario selezionare il percorso file per visualizzare in anteprima i file nel percorso, quindi fare clic su Aggiungi al carrello. Non puoi selezionare un file a livello di bucket, devi aggiungere il file a un percorso file nel bucket.
- Selezionare il file o il percorso file che si desidera virtualizzare e fare clic su Aggiungi al carrello.
Importante:
- Non è possibile virtualizzare un singolo file in un percorso file che contiene più file. L'URL si risolve nel percorso parent in cui si trova il file e l'intero percorso file è virtualizzato. Se si desidera virtualizzare un singolo file, è possibile spostarlo in un percorso file separato. Il percorso file separato non deve essere un percorso file secondario di qualsiasi altro percorso file che è o sarà virtualizzato.
- I file che si desidera virtualizzare devono essere all'interno di un percorso file e non allo stesso livello del bucket. Ad esempio, non è possibile virtualizzare il file s3a://mynewbigsqlbucket/mydata.csv; è necessario inserire mydata.csv in un percorso file e virtualizzare s3a://mynewbigsqlbucket/fi1epath1/mydata.csv perché il processo di virtualizzazione non è in grado di creare una tabella esterna utilizzando solo un nome bucket senza un percorso.
- Fare clic su Visualizza carrello per visualizzare l'anteprima delle selezioni di dati file come file virtuale.
Da questa finestra, è possibile modificare i nomi degli schemi, visualizzare in anteprima i file che partecipano a una tabella unita o rimuovere una selezione dal carrello.
Se è stato installato IBM Knowledge Catalog, è possibile pubblicare la tabella virtuale in un catalogo. Per ulteriori informazioni, vedere Pubblicazione di dati virtuali nel catalogo in Data Virtualization.
- Consigliato: aggiornare il tipo di colonne partizionate da STRING a qualcosa di più appropriato. Esaminare manualmente e specificare i tipi appropriati per il partizionamento delle colonne per prestazioni ottimali.
- Facoltativo: Fare clic su e selezionare Modifica colonne.
È possibile modificare qualsiasi nome di colonna non contrassegnato come Colonna di partizionamento e modificare i tipi di colonna utilizzando il menu a discesa. Quando si è soddisfatti delle modifiche, fare clic su Applica. I nomi colonna aggiornati vengono visualizzati dopo aver virtualizzato la tabella.Nota: quando si virtualizzano i file JSON con dati giapponesi su
IBM Cloud Object Storage e i nomi delle colonne giapponesi non vengono visualizzati correttamente, è possibile utilizzare l'opzione
allownonalphanumeric
per visualizzare correttamente le intestazioni delle colonne giapponesi virtualizzate. Questa opzione è disabilitata per impostazione predefinita e deve essere abilitata. Per ulteriori informazioni, consultare
I nomi delle colonne giapponesi non vengono visualizzati correttamente nei dati virtualizzati.
- Selezionare l'opzione appropriata per assegnare la tabella virtuale da creare dai dati del file:
Assegna a |
Quando utilizzare questa opzione |
Progetto |
Selezionare Progetto se è stata creata la tabella virtuale da utilizzare in un progetto specifico. Quindi scegliere il progetto appropriato. La tabella viene visualizzata anche in Dati virtualizzati. |
Dati virtualizzati |
Selezionare Dati virtualizzati se la tabella non è stata creata per essere utilizzata in un progetto specifico. Questa impostazione è quella predefinita se non esiste alcun progetto. |
- Selezionare Pubblica nel catalogo se si desidera pubblicare anche in un catalogo selezionato.
Un elenco di cataloghi disponibili viene visualizzato nel menu a discesa. Ogni catalogo è contrassegnato come
Governato o
Non governato.
Nota: È necessario avere almeno un catalogo in
IBM Knowledge Catalog.
È necessario disporre dell'autorizzazione per pubblicare in un catalogo. Un amministratore può abilitare la pubblicazione di tutti gli oggetti virtuali in un catalogo gestito selezionato, il che impedisce a un utente di pubblicare in un catalogo specificato.
- Specificare uno schema nel campo Schema .
È inoltre possibile creare uno schema seguendo questa procedura.
- Se si ha il ruolo Data Virtualization Engineer o User, lasciare il campo Schema come predefinito per creare uno schema con il proprio ID utente.
- Se si ha il ruolo di Data Virtualization Manager, lasciare il campo Schema come predefinito per creare uno schema con il proprio ID utente o inserire il nome del nuovo schema nel campo Schema.
- Fare clic su Virtualizza per completare il processo.
Quando viene visualizzata la finestra di stato, è possibile scegliere di visualizzare i propri dati virtualizzati o di virtualizzare più dati.
Cosa fare successivamente
- Visualizzare la struttura della tabella e i metadati.
- Gestire l'accesso alla tabella.
- Modificare i nomi colonna e i tipi di risorse di archiviazione oggetti in modo da poter preparare dati accurati per la virtualizzazione.
- Raccogliere le statistiche per la tabella virtualizzata per ottimizzare le prestazioni delle query. Per ulteriori informazioni, vedere Raccolta di statistiche in Data Virtualization.
Facoltativamente, nella pagina Dati virtualizzati , pubblica il tuo oggetto virtuale nel catalogo. Per ulteriori informazioni, vedere Pubblicazione di dati virtuali nel catalogo in Data Virtualization.