Esercitazione di integrazione dati: virtualizzare i dati esterni
Utilizza questa esercitazione per virtualizzare i dati archiviati in tre origini dati esterne con il caso d'uso di integrazione dei dati della versione di prova del data fabric. Il tuo obiettivo è di utilizzare Watson Query per creare tabelle virtuali e unire le tabelle virtuali dai dati esistenti che si trovano in tre origini dati: un database Db2 Warehouse, PostgreSQL e un database MongoDB . Se hai completato l'esercitazione Integra dati , hai eseguito molte delle stesse attività utilizzando DataStage che questa esercitazione esegue utilizzando Watson Query.
La storia per il tutorial è che Golden Bank deve aderire a un nuovo regolamento in cui non può prestare a richiedenti di prestiti sottoqualificati. Si utilizzerà Watson Query per combinare i dati da diverse origini dati senza spostamento dati e rendere disponibili i dati virtuali ad altri data scientist e data engineer in un progetto.
La seguente immagine animata fornisce una rapida anteprima di ciò che si realizzerà entro la fine di questo tutorial. Ci si connetterà a origini dati esterne, si creeranno tabelle e viste virtuali e si aggiungeranno a un progetto. Fare clic sull'immagine per visualizzare un'immagine più grande.
Anteprima dell'esercitazione
In questa esercitazione, verranno completate le seguenti attività:
- Impostare i requisiti.
- Attività 1: verificare il Platform assets catalog.
- Attività 2: aggiungere connessioni dati al Platform assets catalog.
- Attività 3: aggiungere origini dati a Watson Query.
- Attività 4: virtualizzazione delle tabelle di dati.
- Attività 5: creare viste di unione virtuali unendo tabelle virtuali.
- Attività 6: genera una chiave API.
- Attività 7: accedere alla vista di unione virtuale nel progetto.
- Eliminazione (facoltativo)
Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàCloud Pak for Data.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Imposta i requisiti
Registrati per Cloud Pak for Data as a Service
Devi registrarti per Cloud Pak for Data as a Service e fornire i servizi necessari per il caso di utilizzo dell'integrazione dei dati.
- Se hai un account Cloud Pak for Data as a Service esistente, puoi iniziare con questa esercitazione. Se hai un account del piano Lite, solo un utente per account può eseguire questa esercitazione.
- Se non hai ancora un account Cloud Pak for Data as a Service , registrati per una versione di prova di data fabric.
Guarda il seguente video per ulteriori informazioni su data fabric in Cloud Pak for Data.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Verificare i servizi di cui è stato eseguito il provisioning necessari
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 01:00.
Attenersi alla seguente procedura per verificare o eseguire il provisioning dei servizi necessari:
Nel menu di navigazione Cloud Pak for Data , scegli Services> Service instances.
Utilizza l'elenco a discesa Prodotto per determinare se esiste un'istanza del servizio Watson Query esistente.
Se hai bisogno di creare un'istanza del servizio Watson Query , fai clic su Aggiungi servizio.
Seleziona Watson Query.
Seleziona il piano Lite.
Fare clic su Crea.
Attendi mentre viene eseguito il provisioning del servizio Watson Query , il cui completamento potrebbe richiedere alcuni minuti.
Ripetere questi passi per verificare o eseguire il provisioning dei seguenti servizi aggiuntivi:
- IBM Knowledge Catalog
- Cloud Object Storage
Controlla i tuoi progressi
La seguente immagine mostra le istanze del servizio di cui è stato eseguito il provisioning:
Crea il progetto di esempio
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 01:46.
Se già si dispone del progetto di esempio per questa esercitazione, passare all' Attività 1. In caso contrario, attenersi alla seguente procedura:
Accedere al progetto di esempio di integrazione dati nell'hub di risorse.
Fare clic su Crea progetto.
Se ti viene richiesto di associare il progetto a un'istanza Cloud Object Storage , seleziona un'istanza Cloud Object Storage dall'elenco.
Fare clic su Crea.
Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto per verificare che il progetto e gli asset siano stati creati correttamente.
Fare clic sulla scheda Asset per visualizzare le connessioni e il flusso DataStage .
Controlla i tuoi progressi
La seguente immagine mostra la scheda Asset del progetto di esempio. È ora possibile avviare l'esercitazione.
Attività 1: verificare Platform assets catalog
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 02:42.
È possibile aggiungere connessioni a origini dati esterne a livello di piattaforma o di servizio. Quando si aggiungono le connessioni a livello di piattaforma utilizzando il Platform assets catalog, è possibile includere facilmente tali connessioni in progetti, cataloghi e origini dati Watson Query . Seguire questa procedura per verificare il Platform assets catalog.
Dal menu di navigazione Cloud Pak for Data , scegli Data> Platform connections.
Se vedi connessioni esistenti, hai già un Platform assets cataloge puoi passare a Attività 2. Se non vedi alcuna connessione, ma visualizzi un'opzione per creare una nuova connessione, puoi passare a Attività 2.
Se non si dispone di un Platform assets catalog, fare clic su Crea catalogo.
Selezionare un Cloud Object Storage dall'elenco.
Accettare il valore predefinito per Duplica gestione asset.
Fare clic su Crea. Viene visualizzata la pagina Connessioni piattaforma .
Controlla i tuoi progressi
La seguente immagine mostra le connessioni della piattaforma. Da qui, è possibile creare connessioni. Poiché il progetto di esempio include le connessioni, è possibile aggiungere le connessioni per le origini dati esterne a questo catalogo dal progetto di esempio.
Attività 2: aggiunta di connessioni dati a Platform assets catalog
Per visualizzare in anteprima questa attività, guardare il video a partire dalle 03:22.
Il progetto di esempio Integrazione dati include diverse connessioni a origini dati esterne. Successivamente, aggiungi tre connessioni al Platform assets cataloge puoi renderle disponibili in Watson Query. Attieniti a questa procedura per pubblicare le connessioni dal progetto di esempio al Platform assets catalog.
Dal menu di navigazione Cloud Pak for Data , scegli Progetti> Visualizza tutti i progetti.
Fare clic sul progetto Integrazione dati .
Fai clic sulla scheda Assets.
In Tipi di asset, fare clic su Accesso dati> Connessioni.
Selezionare i seguenti asset di connessione:
- Versione di prova diData Fabric - Db2 Warehouse
- Data Fabric - MongoDB
- Data Fabric Trial - Databases for PostgreSQL
Fare clic su Pubblica nel catalogo.
Selezionare il Catalogo risorse piattaforma dall'elenco e fare clic su Avanti.
Esaminare gli asset e fare clic su Pubblica.
Dal menu di navigazione Cloud Pak for Data , scegli Dati> Connessioni piattaforma per vedere le tre connessioni pubblicate nel catalogo.
Controlla i tuoi progressi
La seguente immagine mostra le connessioni della piattaforma. È ora possibile aggiungere origini dati.
Attività 3: aggiunta di origini dati a Watson Query
Per visualizzare in anteprima questa attività, guardare il video a partire dalle 04:05.
Ora puoi aggiungere queste origini dati esterne dal Platform assets catalog a Watson Query. Attenersi alla seguente procedura per aggiungere le origini dati:
Dal menu di navigazione Cloud Pak for Data , scegli Data> Data virtualization.
Nota: se vedi una notifica a Configura un catalogo primario per applicare la governance, puoi tranquillamente chiudere questa notifica. L'impostazione di un catalogo primario è facoltativa.Nella pagina Origini dati , nella Vista tabella, fare clic su Aggiungi connessione> Connessione piattaforma esistente
Selezionare Data Fabric Trial - Db2 Warehouse.
Fare clic su Aggiungi.
Ripetere questa procedura per aggiungere le connessioni Data Fabric Trial - Mongo DB e Data Fabric Trial - Databases for PostgreSQL .
Controlla i tuoi progressi
La seguente immagine mostra le origini dati. Si è ora pronti a creare una tabella virtuale dai dati memorizzati in tali origini dati esterne.
Attività 4: virtualizzazione delle tabelle dati
Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 04:40.
Si desidera virtualizzare le tabelle MORTGAGE, MORTGAGEe CREDIT_SCORES . Successivamente, è possibile unire le due prime tabelle virtuali con la terza tabella per creare una nuova vista di unione virtuale. Per virtualizzare le tabelle dati, attenersi alla seguente procedura:
Dal menu del servizio, fare clic su Virtualizzazione> Virtualizzazione.
Se necessario, passare alla vista Tabelle e attendere il caricamento delle tabelle, che potrebbe richiedere fino a 30 secondi. Potrebbe essere necessario fare clic su Aggiorna per visualizzare l'elenco completo delle tabelle. Quando si vedono Tabelle disponibili, vengono caricate tutte le tabelle. Il numero di tabelle può variare.
Nella scheda Tabelle , filtrare le tabelle in base ai seguenti criteri:
Connettore: IBM Db2 Warehouse e PostgreSQL
Database: Data Fabric prova - Db2 Warehouse e Data Fabric prova - Databases for PostgreSQL
Schema: BANKING
Selezionare le tabelle MORTGAGE, MORTGAGEe CREDIT_SCORE da virtualizzare. È possibile passare con il mouse su un nome tabella per visualizzare il nome completo e verificare che si stiano selezionando i nomi tabella corretti.
Fare clic su Aggiungi al carrello.
Fare clic sul pulsante Visualizza carrello per visualizzare la selezione. Da qui, è possibile modificare i nomi tabella e schema o rimuovere una selezione dal carrello.
Per ora, deselezionare la casella di controllo accanto a Assegna al progetto. Questa azione renderà le tabelle virtuali disponibili nella pagina Dati virtualizzati .
Fare clic su Virtualizza.
Fare clic su Conferma per avviare la virtualizzazione delle tabelle.
Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la tabella appena creata.
Controlla i tuoi progressi
La seguente immagine mostra la pagina Dati virtualizzati . È ora possibile creare una tabella virtuale unendo queste tabelle virtuali.
Attività 5: creare viste di unione virtuali unendo tabelle virtuali
Si desidera creare una vista di unione virtuale unendo le tabelle virtuali MORTGAGE e MORTGAGE. Quindi, si desidera unire l'oggetto virtuale risultante con la tabella virtuale CREDIT_SCORE per creare una seconda vista di unione virtuale.
Vista unione virtuale 1: partecipa alle tabelle virtuali MORTGAGE e MORTGAGE
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 05:00.
Attenersi alla seguente procedura per creare la prima vista di unione virtuale:
Dalla pagina Dati virtualizzati , selezionare le tabelle MORTGAGE e MORTGAGE da virtualizzare.
Prendere nota del nome schema. Sarà necessario tale nome successivamente per eseguire una query SQL.
Fare clic su Unisci.
Nell'elenco di colonne della tabella MORTGAGE , trascinare per collegare la colonna ID con la colonna ID nella tabella MORTGAGE .
Selezionare tutte le colonne in entrambe le tabelle.
Fare clic su Anteprima per visualizzare un'anteprima delle tabelle unite.
Chiudere la finestra di anteprima.
Fare clic su Apri nell'editor SQL, quindi fare clic su Continua quando non è possibile tornare all'area di disegno di unione. L'editor SQL consente di eseguire le query sul dataset. In questo caso, si desidera visualizzare un'anteprima di quali record conterrà il dataset quando si applica il filtro ai candidati California.
Copiare lo schema ed eliminare la query esistente. Sarà necessario inserire lo schema nella prossima istruzione SQL.
Copiare e incollare la seguente istruzione SELECT per la nuova interrogazione. Sostituisci
<your schema>
con il nome schema che hai notato in precedenza.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
La query è simile a SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
Fare clic su Esegui tutto.
Una volta completata la query, selezionare la query nella scheda Cronologia . Nella scheda Risultati , è possibile visualizzare che la tabella è filtrata solo per gli aspiranti dello stato della California.
Fare clic su Indietro per chiudere l'editor SQL.
Ora che è stata visualizzata l'anteprima del dataset filtrato in base ai richiedenti California, si aggiungeranno questi criteri di filtro alla vista di unione virtuale. Per la tabella MORTGAGE , copiare e incollare la seguente istruzione per i criteri del filtro. Sostituisci
<your schema>
con il nome schema che hai notato in precedenza."<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
I criteri del filtro sono simili a "DV_IBMID_663002GN1Q". "MORTGAGE". "STATE_CODE" = 'CA'
Fare clic su Avanti.
È possibile modificare i nomi delle colonne per differenziare le colonne con lo stesso nome in entrambe le tabelle. In questo caso, conservare i nomi di colonna predefiniti e fare clic su Avanti.
Nella pagina Assegna e rivedi , per il Nome vista, immettere
APPLICANTS_APPLICATIONS_JOINED
.Per ora, deselezionare l'opzione Assegna al progetto . Successivamente, si crea un oggetto virtuale e lo si assegna al progetto di integrazione dati.
Fare clic su Crea vista.
Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la vista di unione appena creata.
Controlla i tuoi progressi
La seguente immagine mostra la pagina Dati virtualizzati . Si è ora pronti per creare una seconda vista di unione virtuale.
Vista unione virtuale 2: unire le tabelle virtuali APPLICANTS_APPLICATIONS_JOIN e CREDIT_SCORE
Per visualizzare in anteprima questa attività, guardare il video a partire dalle 07:47.
Attenersi alla seguente procedura per creare la seconda vista di unione virtuale:
Dalla pagina Dati virtualizzati , selezionare le tabelle APPLICANTS_APPLICATIONS_UNITO e CREDIT_SCORE da virtualizzare.
Fare clic su Unisci.
Nell'elenco di colonne per la tabella APPLICANTS_APPLICATIONS_UNITE , trascinare per collegare la colonna EMAIL_ADDRESS con la colonna EMAIL_ADDRESS nella tabella CREDIT_SCORE .
Fare clic su Anteprima per visualizzare un'anteprima delle tabelle unite.
Chiudere la finestra di anteprima.
Fare clic su Avanti.
Accettare i nomi di colonna predefiniti e fare clic su Avanti.
Nella pagina Assegna e rivedi , per il Nome vista, immettere
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
.Questa volta, mantenere selezionata l'opzione Assegna a progetto e scegliere il progetto Integrazione dati .
Fare clic su Crea vista.
Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la vista di unione appena creata.
Controlla i tuoi progressi
La seguente immagine mostra la pagina Dati virtualizzati . Si è ora pronti a lavorare con i dati virtuali nel progetto.
Attività 6: genera una chiave API
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 08:00.
È necessario fornire le proprie credenziali personali sotto forma di una chiave API per visualizzare gli asset virtualizzati. Se non hai già una chiave API salvata, attieniti alla seguente procedura per creare una chiave API.
Accedi alla pagina delle chiavi API nella console IBM Cloud . Accedere se richiesto.
Nella pagina Chiavi API , fai clic su Crea una chiave API IBM Cloud. Se hai delle chiavi API esistenti, il pulsante può essere etichettato come Crea.
Immettere un nome e una descrizione.
Fare clic su Crea.
Copia la chiave API.
Scarica la chiave API per un utilizzo futuro.
Controlla i tuoi progressi
La seguente immagine mostra la pagina delle chiavi API. È ora possibile visualizzare la tabella virtuale nel progetto.
Attività 7: accesso alla vista di unione virtuale nel progetto
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 09:01.
La tabella virtuale è stata aggiunta al progetto insieme a un collegamento a Watson Query. Seguire questa procedura per aprire il progetto per visualizzare i dati virtuali e le informazioni di connessione richieste per accedere ai dati virtuali.
Torna a Cloud Pak for Data. Dal Menu di navigazione , scegliere Progetti> Visualizza tutti i progetti.
Aprire il progetto Integrazione dati .
Fai clic sulla scheda Assets.
Aprire uno qualsiasi dei dati virtualizzati. Ad esempio, fare clic sull'asset di dati che inizia con il nome dello schema seguito da APPLICANTS_APPLICATIONS_CREDIT_SCORE_UNITO per visualizzarlo.
Fornire le proprie credenziali per accedere all'asset di dati.
Per il Metodo di autenticazione, selezionare Chiave API.
Incolla la tua chiave API.
Fai clic su CONNETTI.
Scorrere l'asset di dati per visualizzare tutti i candidati dello Stato della California.
Controlla i tuoi progressi
La seguente immagine mostra i dati virtuali nel progetto. È ora possibile analizzare i dati virtuali.
Come ingegnere dei dati presso Golden Bank, hai utilizzato Watson Query per combinare i dati da origini dati diverse e con tipi diversi. Si è utilizzata la sintassi SQL e si è eseguito l'accesso e la combinazione dei dati senza lo spostamento dei dati.
Ripulitura (facoltativo)
Se si desidera riprendere le esercitazioni nel caso di utilizzo dell'integrazione dati, eliminare le seguenti risorse utente.
Risorse utente | Come eliminare |
---|---|
Connessioni nel Platform assets catalog | Rimuovere un asset da un catalogo |
Dati virtualizzati | Passare a Dati> Data virtualization; nella pagina Dati virtualizzati , accedere al menu Overflow per una tabella e selezionare Rimuovi. |
Origini dati | Passare a Data> Data virtualization; nella pagina Origini dati , selezionare l'icona Elimina per una connessione. |
Progetto di esempio di integrazione dati | Eliminare un progetto |
Passi successivi
Ulteriori informazioni
Argomento principale: Esercitazioni del caso d'uso