Utilizza questa esercitazione per virtualizzare i dati archiviati in tre origini dati esterne con il caso d'uso di integrazione dei dati della versione di prova del data fabric. L'obiettivo è utilizzare la Data Virtualization per creare tabelle virtuali e unire le tabelle virtuali dai dati esistenti che si trovano in tre fonti di dati: un Db2 Warehouse, un database PostgreSQL e un database MongoDB. Se avete completato l'esercitazione sull'integrazione dei dati, avete svolto molte delle stesse operazioni con DataStage che questa esercitazione realizza con Data Virtualization.
La storia per il tutorial è che Golden Bank deve aderire a un nuovo regolamento in cui non può prestare a richiedenti di prestiti sottoqualificati. Utilizzerete la Data Virtualization per combinare dati provenienti da fonti diverse senza spostamenti di dati e rendere i dati virtuali disponibili ad altri data scientist e data engineer in un progetto.
La seguente immagine animata fornisce una rapida anteprima di ciò che si realizzerà entro la fine di questo tutorial. Ci si connetterà a origini dati esterne, si creeranno tabelle e viste virtuali e si aggiungeranno a un progetto. Fare clic sull'immagine per visualizzare un'immagine più grande.
Anteprima dell'esercitazione
In questa esercitazione, verranno completate le seguenti attività:
- Impostare i requisiti.
- Attività 1: verificare il Platform assets catalog.
- Attività 2: aggiungere connessioni dati al Platform assets catalog.
- Attività 3: Aggiungere le fonti di dati a Data Virtualization.
- Attività 4: virtualizzazione delle tabelle di dati.
- Attività 5: creare viste di unione virtuali unendo tabelle virtuali.
- Attività 6: genera una chiave API.
- Attività 7: accedere alla vista di unione virtuale nel progetto.
- Eliminazione (facoltativo)
Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Imposta i requisiti
Registrati per Cloud Pak for Data as a Service
Devi registrarti per Cloud Pak for Data as a Service e fornire i servizi necessari per il caso di utilizzo dell'integrazione dei dati.
- Se hai un account Cloud Pak for Data as a Service esistente, puoi iniziare con questa esercitazione. Se hai un account del piano Lite, solo un utente per account può eseguire questa esercitazione.
- Se non hai ancora un account Cloud Pak for Data as a Service , registrati per una versione di prova di data fabric.
Guardate il seguente video per conoscere il data fabric in Cloud Pak for Data.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Verificare i servizi di cui è stato eseguito il provisioning necessari
Per avere un'anteprima di questo compito, guardate il video a partire da 01:06.
Attenersi alla seguente procedura per verificare o eseguire il provisioning dei servizi necessari:
Dal menu di navigazione ', scegliere Servizi > Istanze di servizio.
Usare l'elenco a discesa Prodotto per determinare se esiste un'istanza del servizio Data Virtualization.
Se è necessario creare un'istanza del servizio Data Virtualization, fare clic su Aggiungi servizio.
Selezionare Data Virtualization.
Seleziona il piano Lite.
Fare clic su Crea.
Attendere il provisioning del servizio Data Virtualization, che potrebbe richiedere alcuni minuti.
Ripetere questi passi per verificare o eseguire il provisioning dei seguenti servizi aggiuntivi:
- IBM Knowledge Catalog
- Cloud Object Storage
Controllare i progressi
La seguente immagine mostra le istanze del servizio di cui è stato eseguito il provisioning:
Crea il progetto di esempio
Per vedere un'anteprima di questo compito, guardate il video a partire da 01:46.
Se già si dispone del progetto di esempio per questa esercitazione, passare all' Attività 1. In caso contrario, attenersi alla seguente procedura:
Accedere al progetto di esempio di integrazione dei dati nell'hub Risorse.
Fare clic su Crea progetto.
Se ti viene richiesto di associare il progetto a un'istanza Cloud Object Storage , seleziona un'istanza Cloud Object Storage dall'elenco.
Fare clic su Crea.
Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto per verificare che il progetto e gli asset siano stati creati correttamente.
Fare clic sulla scheda Asset per visualizzare le connessioni e il flusso DataStage .
Controllare i progressi
La seguente immagine mostra la scheda Asset del progetto di esempio. È ora possibile avviare l'esercitazione.
Attività 1: verificare Platform assets catalog
Per vedere un'anteprima di questo compito, guardate il video a partire da 02:42.
È possibile aggiungere connessioni a origini dati esterne a livello di piattaforma o di servizio. Quando si aggiungono le connessioni a livello di piattaforma utilizzando il Platform assets catalog, è possibile includere facilmente tali connessioni nei progetti, nei cataloghi e nelle origini dati Data Virtualization. Seguire questa procedura per verificare il Platform assets catalog.
Dal menu di navigazione ', scegliere Dati > Connessioni alla piattaforma.
Se vedi connessioni esistenti, hai già un Platform assets cataloge puoi passare a Attività 2. Se non vengono visualizzate connessioni, ma viene visualizzata un'opzione per creare una nuova connessione, si può passare al Task 2.
'Se non si dispone di un Platform assets catalog, fare clic su Crea catalogo.
Selezionare un Cloud Object Storage dall'elenco.
Accettare il valore predefinito per Duplica gestione asset.
Fare clic su Crea. Viene visualizzata la pagina Connessioni piattaforma .
Controllare i progressi
La seguente immagine mostra le connessioni della piattaforma. Da qui, è possibile creare connessioni. Poiché il progetto di esempio include le connessioni, è possibile aggiungere le connessioni per le origini dati esterne a questo catalogo dal progetto di esempio.
Attività 2: aggiunta di connessioni dati a Platform assets catalog
Per avere un'anteprima di questo compito, guardate il video a partire da 03:22.
Il progetto di esempio Integrazione dati include diverse connessioni a origini dati esterne. Successivamente, si aggiungono tre connessioni al Platform assets catalog e si possono rendere disponibili in Data Virtualization. Attieniti a questa procedura per pubblicare le connessioni dal progetto di esempio al Platform assets catalog.
Dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
Fare clic sul progetto Integrazione dati .
Fai clic sulla scheda Assets.
In Tipi di asset, fare clic su Accesso dati> Connessioni.
Selezionare i seguenti asset di connessione:
- Versione di prova diData Fabric - Db2 Warehouse
- Data Fabric - MongoDB
- Data Fabric Trial - Databases for PostgreSQL
Fare clic su Pubblica nel catalogo.
Selezionare il Catalogo risorse piattaforma dall'elenco e fare clic su Avanti.
Esaminare gli asset e fare clic su Pubblica.
Dal menu di navigazione ', scegliere Dati > Connessioni della piattaforma per vedere le tre connessioni pubblicate nel catalogo.
Controllare i progressi
La seguente immagine mostra le connessioni della piattaforma. È ora possibile aggiungere origini dati.
Attività 3: Aggiungere fonti di dati alla Data Virtualization
Per vedere un'anteprima di questo compito, guardate il video a partire da 04:05.
Ora è possibile aggiungere queste fonti di dati esterne dal Platform assets catalog a Data Virtualization. Attenersi alla seguente procedura per aggiungere le origini dati:
Dal menu di navigazione ', scegliere Dati > Data virtualization.
Nota: se vedi una notifica a Configura un catalogo primario per applicare la governance, puoi tranquillamente chiudere questa notifica. L'impostazione di un catalogo primario è facoltativa.Nella pagina Origini dati, nella vista Tabella, fare clic su Aggiungi connessione > Connessione a piattaforma esistente.
Selezionare Data Fabric Trial - Db2 Warehouse.
Fare clic su Aggiungi.
Ripetere questa procedura per aggiungere le connessioni Data Fabric Trial - Mongo DB e Data Fabric Trial - Databases for PostgreSQL .
Controllare i progressi
La seguente immagine mostra le origini dati. Si è ora pronti a creare una tabella virtuale dai dati memorizzati in tali origini dati esterne.
Attività 4: virtualizzazione delle tabelle dati
Per avere un'anteprima di questo compito, guardate il video che inizia a 04:40.
Si desidera virtualizzare le tabelle MORTGAGE, MORTGAGEe CREDIT_SCORES . Successivamente, è possibile unire le due prime tabelle virtuali con la terza tabella per creare una nuova vista di unione virtuale. Per virtualizzare le tabelle dati, attenersi alla seguente procedura:
Nel menu di servizio, fare clic su Virtualizzazione > Virtualizza.
Se necessario, passare alla vista Tabelle e attendere il caricamento delle tabelle, che potrebbe richiedere fino a 30 secondi. Potrebbe essere necessario fare clic su Aggiorna per visualizzare l'elenco completo delle tabelle. Quando si vedono Tabelle disponibili, vengono caricate tutte le tabelle. Il numero di tabelle può variare.
Nella scheda Tabelle , filtrare le tabelle in base ai seguenti criteri:
Connettore: IBM Db2 Warehouse e PostgreSQL
Database: Data Fabric prova - Db2 Warehouse e Data Fabric prova - Databases for PostgreSQL
Schema: BANKING
Selezionare le tabelle MORTGAGE, MORTGAGEe CREDIT_SCORE da virtualizzare. È possibile passare con il mouse su un nome tabella per visualizzare il nome completo e verificare che si stiano selezionando i nomi tabella corretti.
Fare clic su Aggiungi al carrello.
Fare clic sul pulsante Visualizza carrello per visualizzare la selezione. Da qui, è possibile modificare i nomi tabella e schema o rimuovere una selezione dal carrello.
Per ora, deselezionare la casella di controllo accanto a Assegna al progetto. Questa azione renderà le tabelle virtuali disponibili nella pagina Dati virtualizzati .
Fare clic su Virtualizza.
Fare clic su Conferma per avviare la virtualizzazione delle tabelle.
Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la tabella appena creata.
Controllare i progressi
La seguente immagine mostra la pagina Dati virtualizzati . È ora possibile creare una tabella virtuale unendo queste tabelle virtuali.
Attività 5: creare viste di unione virtuali unendo tabelle virtuali
Si desidera creare una vista di unione virtuale unendo le tabelle virtuali MORTGAGE e MORTGAGE. Quindi, si desidera unire l'oggetto virtuale risultante con la tabella virtuale CREDIT_SCORE per creare una seconda vista di unione virtuale.
Vista unione virtuale 1: partecipa alle tabelle virtuali MORTGAGE e MORTGAGE
Per vedere un'anteprima di questo compito, guardate il video a partire da 05:59.
Attenersi alla seguente procedura per creare la prima vista di unione virtuale:
Dalla pagina Dati virtualizzati , selezionare le tabelle MORTGAGE e MORTGAGE da virtualizzare.
Prendere nota del nome schema. Sarà necessario tale nome successivamente per eseguire una query SQL.
Fare clic su Unisci.
Nell'elenco delle colonne della tabella MORTGAGE_APPLICATION, trascinare per collegare la colonna ID con la colonna ID della tabella MORTGAGE_APPLICANT.
Selezionare tutte le colonne in entrambe le tabelle.
Fare clic su Anteprima per visualizzare un'anteprima delle tabelle unite.
Chiudere la finestra di anteprima.
Fare clic su Apri nell'editor SQL, quindi fare clic su Continua quando non è possibile tornare all'area di disegno di unione. L'editor SQL consente di eseguire le query sul dataset. In questo caso, si desidera visualizzare un'anteprima di quali record conterrà il dataset quando si applica il filtro ai candidati California.
Copiare lo schema ed eliminare la query esistente. Sarà necessario inserire lo schema nella prossima istruzione SQL.
Copiare e incollare la seguente istruzione SELECT per la nuova interrogazione. Sostituisci
<your schema>
con il nome schema che hai notato in precedenza.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
La vostra query è simile a SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
'Fare clic su Esegui tutto.
Una volta completata la query, selezionare la query nella scheda Cronologia . Nella scheda Risultati , è possibile visualizzare che la tabella è filtrata solo per gli aspiranti dello stato della California.
Fare clic su Indietro per chiudere l'editor SQL.
Ora che è stata visualizzata l'anteprima del dataset filtrato in base ai richiedenti California, si aggiungeranno questi criteri di filtro alla vista di unione virtuale. Per la tabella MORTGAGE , copiare e incollare la seguente istruzione per i criteri del filtro. Sostituisci
<your schema>
con il nome schema che hai notato in precedenza."<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
I criteri del filtro sono simili a "DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE"='CA'
Fare clic su Avanti.
È possibile modificare i nomi delle colonne per differenziare le colonne con lo stesso nome in entrambe le tabelle. In questo caso, conservare i nomi di colonna predefiniti e fare clic su Avanti.
Nella pagina Assegna e rivedi , per il Nome vista, immettere
APPLICANTS_APPLICATIONS_JOINED
.Per ora, deselezionare l'opzione Assegna al progetto . Successivamente, si crea un oggetto virtuale e lo si assegna al progetto di integrazione dati.
Fare clic su Crea vista.
Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la vista di unione appena creata.
Controllare i progressi
La seguente immagine mostra la pagina Dati virtualizzati . Si è ora pronti per creare una seconda vista di unione virtuale.
Vista unione virtuale 2: unire le tabelle virtuali APPLICANTS_APPLICATIONS_JOIN e CREDIT_SCORE
Per vedere un'anteprima di questo compito, guardate il video a partire da 07:47.
Attenersi alla seguente procedura per creare la seconda vista di unione virtuale:
Dalla pagina Dati virtualizzati , selezionare le tabelle APPLICANTS_APPLICATIONS_UNITO e CREDIT_SCORE da virtualizzare.
Fare clic su Unisci.
Nell'elenco di colonne per la tabella APPLICANTS_APPLICATIONS_UNITE , trascinare per collegare la colonna EMAIL_ADDRESS con la colonna EMAIL_ADDRESS nella tabella CREDIT_SCORE .
Fare clic su Anteprima per visualizzare un'anteprima delle tabelle unite.
Chiudere la finestra di anteprima.
Fare clic su Avanti.
Accettare i nomi di colonna predefiniti e fare clic su Avanti.
Nella pagina Assegna e rivedi , per il Nome vista, immettere
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
.Questa volta, mantenere selezionata l'opzione Assegna a progetto e scegliere il progetto Integrazione dati .
Fare clic su Crea vista.
Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la vista di unione appena creata.
Controllare i progressi
La seguente immagine mostra la pagina Dati virtualizzati . Si è ora pronti a lavorare con i dati virtuali nel progetto.
Attività 6: genera una chiave API
Per vedere un'anteprima di questo compito, guardate il video a partire da 08:27.
È necessario fornire le proprie credenziali personali sotto forma di una chiave API per visualizzare gli asset virtualizzati. Se non hai già una chiave API salvata, attieniti alla seguente procedura per creare una chiave API.
Accedere alla pagina delle chiavi API nella console IBM Cloud. Accedere se richiesto.
Nella pagina Chiavi API , fai clic su Crea una chiave API IBM Cloud. Se hai delle chiavi API esistenti, il pulsante può essere etichettato come Crea.
Immettere un nome e una descrizione.
Fare clic su Crea.
Copia la chiave API.
Scarica la chiave API per un utilizzo futuro.
Controllare i progressi
La seguente immagine mostra la pagina delle chiavi API. È ora possibile visualizzare la tabella virtuale nel progetto.
Attività 7: accesso alla vista di unione virtuale nel progetto
Per avere un'anteprima di questo compito, guardate il video a partire da 09:01.
La tabella virtuale è stata aggiunta al progetto insieme a una connessione a Data Virtualization. Seguire questa procedura per aprire il progetto per visualizzare i dati virtuali e le informazioni di connessione richieste per accedere ai dati virtuali.
Torna a Cloud Pak for Data. Dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
Aprire il progetto Integrazione dati .
Fai clic sulla scheda Assets.
Aprire uno qualsiasi dei dati virtualizzati. Ad esempio, fare clic sull'asset di dati che inizia con il nome dello schema seguito da APPLICANTS_APPLICATIONS_CREDIT_SCORE_UNITO per visualizzarlo.
Fornire le proprie credenziali per accedere all'asset di dati.
Per il Metodo di autenticazione, selezionare Chiave API.
Incollare la chiave API.
'Fai clic su CONNETTI.
Scorrere l'asset di dati per visualizzare tutti i candidati dello Stato della California.
Controllare i progressi
La seguente immagine mostra i dati virtuali nel progetto. È ora possibile analizzare i dati virtuali.
In qualità di ingegnere dei dati presso Golden Bank, avete utilizzato la Data Virtualization per combinare dati provenienti da fonti diverse e di tipo diverso. Si è utilizzata la sintassi SQL e si è eseguito l'accesso e la combinazione dei dati senza lo spostamento dei dati.
Ripulitura (facoltativo)
Se si desidera riprendere le esercitazioni nel caso di utilizzo dell'integrazione dati, eliminare le seguenti risorse utente.
Risorse utente | Come eliminare |
---|---|
Connessioni nel Platform assets catalog | Rimuovere una risorsa da un catalogo |
Dati virtualizzati | Navigare in Dati > Data virtualization; nella pagina dei dati virtualizzati, accedere al menu Overflow ' per una tabella e selezionare Rimuovi. |
Origini dati | Navigare in Dati > Data virtualization; nella pagina Origini dati, fare clic sull'icona Elimina ' per una connessione. |
Progetto di esempio di integrazione dati | Eliminare un progetto |
Passi successivi
Ulteriori informazioni
Argomento principale: Esercitazioni del caso d'uso