0 / 0
Torna alla versione inglese della documentazione
Esercitazione di integrazione dati: virtualizzare i dati esterni
Ultimo aggiornamento: 28 nov 2024
Esercitazione di integrazione dati: virtualizzare i dati esterni

Utilizza questa esercitazione per virtualizzare i dati archiviati in tre origini dati esterne con il caso d'uso di integrazione dei dati della versione di prova del data fabric. L'obiettivo è utilizzare la Data Virtualization per creare tabelle virtuali e unire le tabelle virtuali dai dati esistenti che si trovano in tre fonti di dati: un Db2 Warehouse, un database PostgreSQL e un database MongoDB. Se avete completato l'esercitazione sull'integrazione dei dati, avete svolto molte delle stesse operazioni con DataStage che questa esercitazione realizza con Data Virtualization.

Avvio rapido: se non è stato ancora creato il progetto di esempio per questa esercitazione, accedere a Progetto di esempio di integrazione dati nell'hub di risorse.

La storia per il tutorial è che Golden Bank deve aderire a un nuovo regolamento in cui non può prestare a richiedenti di prestiti sottoqualificati. Utilizzerete la Data Virtualization per combinare dati provenienti da fonti diverse senza spostamenti di dati e rendere i dati virtuali disponibili ad altri data scientist e data engineer in un progetto.

La seguente immagine animata fornisce una rapida anteprima di ciò che si realizzerà entro la fine di questo tutorial. Ci si connetterà a origini dati esterne, si creeranno tabelle e viste virtuali e si aggiungeranno a un progetto. Fare clic sull'immagine per visualizzare un'immagine più grande.

Immagine animata

Anteprima dell'esercitazione

In questa esercitazione, verranno completate le seguenti attività:

Guarda il video Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulla data / ora per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare l'immagine e i capitoli

Ottieni aiuto nella community

Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Imposta i requisiti

Registrati per Cloud Pak for Data as a Service

Devi registrarti per Cloud Pak for Data as a Service e fornire i servizi necessari per il caso di utilizzo dell'integrazione dei dati.

  • Se hai un account Cloud Pak for Data as a Service esistente, puoi iniziare con questa esercitazione. Se hai un account del piano Lite, solo un utente per account può eseguire questa esercitazione.
  • Se non hai ancora un account Cloud Pak for Data as a Service , registrati per una versione di prova di data fabric.

Icona Video Guardate il seguente video per conoscere il data fabric in Cloud Pak for Data.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

Verificare i servizi di cui è stato eseguito il provisioning necessari

video dell'esercitazione di anteprima Per avere un'anteprima di questo compito, guardate il video a partire da 01:06.

Attenersi alla seguente procedura per verificare o eseguire il provisioning dei servizi necessari:

  1. Dal menu di navigazione 'Menu di navigazione, scegliere Servizi > Istanze di servizio.

  2. Usare l'elenco a discesa Prodotto per determinare se esiste un'istanza del servizio Data Virtualization.

  3. Se è necessario creare un'istanza del servizio Data Virtualization, fare clic su Aggiungi servizio.

    1. Selezionare Data Virtualization.

    2. Seleziona il piano Lite.

    3. Fare clic su Crea.

  4. Attendere il provisioning del servizio Data Virtualization, che potrebbe richiedere alcuni minuti.

  5. Ripetere questi passi per verificare o eseguire il provisioning dei seguenti servizi aggiuntivi:

    • IBM Knowledge Catalog
    • Cloud Object Storage

Icona Checkpoint Controllare i progressi

La seguente immagine mostra le istanze del servizio di cui è stato eseguito il provisioning:

Servizi con provisioning

Crea il progetto di esempio

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 01:46.

Se già si dispone del progetto di esempio per questa esercitazione, passare all' Attività 1. In caso contrario, attenersi alla seguente procedura:

  1. Accedere al progetto di esempio di integrazione dei dati nell'hub Risorse.

  2. Fare clic su Crea progetto.

  3. Se ti viene richiesto di associare il progetto a un'istanza Cloud Object Storage , seleziona un'istanza Cloud Object Storage dall'elenco.

  4. Fare clic su Crea.

  5. Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto per verificare che il progetto e gli asset siano stati creati correttamente.

  6. Fare clic sulla scheda Asset per visualizzare le connessioni e il flusso DataStage .

Nota: potresti visualizzare un tour guidato che mostra le esercitazioni incluse con questo caso d'uso. I link nel tour guidato apriranno queste istruzioni dell'esercitazione.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la scheda Asset del progetto di esempio. È ora possibile avviare l'esercitazione.

Progetto di esempio




Attività 1: verificare Platform assets catalog

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 02:42.

È possibile aggiungere connessioni a origini dati esterne a livello di piattaforma o di servizio. Quando si aggiungono le connessioni a livello di piattaforma utilizzando il Platform assets catalog, è possibile includere facilmente tali connessioni nei progetti, nei cataloghi e nelle origini dati Data Virtualization. Seguire questa procedura per verificare il Platform assets catalog.

  1. Dal menu di navigazione 'Menu di navigazione, scegliere Dati > Connessioni alla piattaforma.

  2. Se vedi connessioni esistenti, hai già un Platform assets cataloge puoi passare a Attività 2. Se non vengono visualizzate connessioni, ma viene visualizzata un'opzione per creare una nuova connessione, si può passare al Task 2.
    'Pulsante Nuova connessione

  3. Se non si dispone di un Platform assets catalog, fare clic su Crea catalogo. Crea catalogo asset della piattaforma

  4. Selezionare un Cloud Object Storage dall'elenco.

  5. Accettare il valore predefinito per Duplica gestione asset.

  6. Fare clic su Crea. Viene visualizzata la pagina Connessioni piattaforma .

Icona Checkpoint Controllare i progressi

La seguente immagine mostra le connessioni della piattaforma. Da qui, è possibile creare connessioni. Poiché il progetto di esempio include le connessioni, è possibile aggiungere le connessioni per le origini dati esterne a questo catalogo dal progetto di esempio.

Platform assets catalog




Attività 2: aggiunta di connessioni dati a Platform assets catalog

video dell'esercitazione di anteprima Per avere un'anteprima di questo compito, guardate il video a partire da 03:22.

Il progetto di esempio Integrazione dati include diverse connessioni a origini dati esterne. Successivamente, si aggiungono tre connessioni al Platform assets catalog e si possono rendere disponibili in Data Virtualization. Attieniti a questa procedura per pubblicare le connessioni dal progetto di esempio al Platform assets catalog.

  1. Dal menu di navigazione 'Menu di navigazione, scegliere Progetti > Visualizza tutti i progetti.

  2. Fare clic sul progetto Integrazione dati .

  3. Fai clic sulla scheda Assets.

  4. In Tipi di asset, fare clic su Accesso dati> Connessioni.

  5. Selezionare i seguenti asset di connessione:

    • Versione di prova diData Fabric - Db2 Warehouse
    • Data Fabric - MongoDB
    • Data Fabric Trial - Databases for PostgreSQL
  6. Fare clic su Pubblica nel catalogo.

    1. Selezionare il Catalogo risorse piattaforma dall'elenco e fare clic su Avanti.

    2. Esaminare gli asset e fare clic su Pubblica.

  7. Dal menu di navigazione 'Menu di navigazione, scegliere Dati > Connessioni della piattaforma per vedere le tre connessioni pubblicate nel catalogo.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra le connessioni della piattaforma. È ora possibile aggiungere origini dati.

Tre connessioni di piattaforma




Attività 3: Aggiungere fonti di dati alla Data Virtualization

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 04:05.

Ora è possibile aggiungere queste fonti di dati esterne dal Platform assets catalog a Data Virtualization. Attenersi alla seguente procedura per aggiungere le origini dati:

  1. Dal menu di navigazione 'Menu di navigazione, scegliere Dati > Data virtualization.

    Nota: se vedi una notifica a Configura un catalogo primario per applicare la governance, puoi tranquillamente chiudere questa notifica. L'impostazione di un catalogo primario è facoltativa.
  2. Nella pagina Origini dati, nella vista Tabella, fare clic su Aggiungi connessione > Connessione a piattaforma esistente.
    Aggiungi connessione esistente

  3. Selezionare Data Fabric Trial - Db2 Warehouse.

  4. Fare clic su Aggiungi.

  5. Ripetere questa procedura per aggiungere le connessioni Data Fabric Trial - Mongo DB e Data Fabric Trial - Databases for PostgreSQL .

Icona Checkpoint Controllare i progressi

La seguente immagine mostra le origini dati. Si è ora pronti a creare una tabella virtuale dai dati memorizzati in tali origini dati esterne.

Origini dati




Attività 4: virtualizzazione delle tabelle dati

video dell'esercitazione di anteprima Per avere un'anteprima di questo compito, guardate il video che inizia a 04:40.

Si desidera virtualizzare le tabelle MORTGAGE, MORTGAGEe CREDIT_SCORES . Successivamente, è possibile unire le due prime tabelle virtuali con la terza tabella per creare una nuova vista di unione virtuale. Per virtualizzare le tabelle dati, attenersi alla seguente procedura:

  1. Nel menu di servizio, fare clic su Virtualizzazione > Virtualizza.
    Virtualizza nel menù di servizio

  2. Se necessario, passare alla vista Tabelle e attendere il caricamento delle tabelle, che potrebbe richiedere fino a 30 secondi. Potrebbe essere necessario fare clic su Aggiorna per visualizzare l'elenco completo delle tabelle. Quando si vedono Tabelle disponibili, vengono caricate tutte le tabelle. Il numero di tabelle può variare.
    Virtualizza elenco di tabelle disponibili

  3. Nella scheda Tabelle , filtrare le tabelle in base ai seguenti criteri:

    1. Connettore: IBM Db2 Warehouse e PostgreSQL

    2. Database: Data Fabric prova - Db2 Warehouse e Data Fabric prova - Databases for PostgreSQL

    3. Schema: BANKING

  4. Selezionare le tabelle MORTGAGE, MORTGAGEe CREDIT_SCORE da virtualizzare. È possibile passare con il mouse su un nome tabella per visualizzare il nome completo e verificare che si stiano selezionando i nomi tabella corretti.

  5. Fare clic su Aggiungi al carrello.

  6. Fare clic sul pulsante Visualizza carrello per visualizzare la selezione. Da qui, è possibile modificare i nomi tabella e schema o rimuovere una selezione dal carrello.

  7. Per ora, deselezionare la casella di controllo accanto a Assegna al progetto. Questa azione renderà le tabelle virtuali disponibili nella pagina Dati virtualizzati .

  8. Fare clic su Virtualizza.

  9. Fare clic su Conferma per avviare la virtualizzazione delle tabelle.

  10. Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la tabella appena creata.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la pagina Dati virtualizzati . È ora possibile creare una tabella virtuale unendo queste tabelle virtuali.

Dati virtualizzati




Attività 5: creare viste di unione virtuali unendo tabelle virtuali

Si desidera creare una vista di unione virtuale unendo le tabelle virtuali MORTGAGE e MORTGAGE. Quindi, si desidera unire l'oggetto virtuale risultante con la tabella virtuale CREDIT_SCORE per creare una seconda vista di unione virtuale.

Vista unione virtuale 1: partecipa alle tabelle virtuali MORTGAGE e MORTGAGE

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 05:59.

Attenersi alla seguente procedura per creare la prima vista di unione virtuale:

  1. Dalla pagina Dati virtualizzati , selezionare le tabelle MORTGAGE e MORTGAGE da virtualizzare.

  2. Prendere nota del nome schema. Sarà necessario tale nome successivamente per eseguire una query SQL.

  3. Fare clic su Unisci.

  4. Nell'elenco delle colonne della tabella MORTGAGE_APPLICATION, trascinare per collegare la colonna ID con la colonna ID della tabella MORTGAGE_APPLICANT.
    Unisci oggetti virtuali utilizzando l'ID per la chiave

  5. Selezionare tutte le colonne in entrambe le tabelle.

  6. Fare clic su Anteprima per visualizzare un'anteprima delle tabelle unite.

  7. Chiudere la finestra di anteprima.

  8. Fare clic su Apri nell'editor SQL, quindi fare clic su Continua quando non è possibile tornare all'area di disegno di unione. L'editor SQL consente di eseguire le query sul dataset. In questo caso, si desidera visualizzare un'anteprima di quali record conterrà il dataset quando si applica il filtro ai candidati California.

    Apri editor SQL

    1. Copiare lo schema ed eliminare la query esistente. Sarà necessario inserire lo schema nella prossima istruzione SQL.

    2. Copiare e incollare la seguente istruzione SELECT per la nuova interrogazione. Sostituisci <your schema> con il nome schema che hai notato in precedenza.

      SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      

      La vostra query è simile a SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      'Istruzione Select

    3. Fare clic su Esegui tutto.

    4. Una volta completata la query, selezionare la query nella scheda Cronologia . Nella scheda Risultati , è possibile visualizzare che la tabella è filtrata solo per gli aspiranti dello stato della California.

    5. Fare clic su Indietro per chiudere l'editor SQL.

  9. Ora che è stata visualizzata l'anteprima del dataset filtrato in base ai richiedenti California, si aggiungeranno questi criteri di filtro alla vista di unione virtuale. Per la tabella MORTGAGE , copiare e incollare la seguente istruzione per i criteri del filtro. Sostituisci <your schema> con il nome schema che hai notato in precedenza.

    "<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
    

    I criteri del filtro sono simili a "DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE"='CA'

    Criteri di filtro

  10. Fare clic su Avanti.

  11. È possibile modificare i nomi delle colonne per differenziare le colonne con lo stesso nome in entrambe le tabelle. In questo caso, conservare i nomi di colonna predefiniti e fare clic su Avanti.

  12. Nella pagina Assegna e rivedi , per il Nome vista, immettere APPLICANTS_APPLICATIONS_JOINED.

  13. Per ora, deselezionare l'opzione Assegna al progetto . Successivamente, si crea un oggetto virtuale e lo si assegna al progetto di integrazione dati.

  14. Fare clic su Crea vista.

  15. Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la vista di unione appena creata.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la pagina Dati virtualizzati . Si è ora pronti per creare una seconda vista di unione virtuale.

Dati virtualizzati

Vista unione virtuale 2: unire le tabelle virtuali APPLICANTS_APPLICATIONS_JOIN e CREDIT_SCORE

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 07:47.

Attenersi alla seguente procedura per creare la seconda vista di unione virtuale:

  1. Dalla pagina Dati virtualizzati , selezionare le tabelle APPLICANTS_APPLICATIONS_UNITO e CREDIT_SCORE da virtualizzare.

  2. Fare clic su Unisci.

  3. Nell'elenco di colonne per la tabella APPLICANTS_APPLICATIONS_UNITE , trascinare per collegare la colonna EMAIL_ADDRESS con la colonna EMAIL_ADDRESS nella tabella CREDIT_SCORE .

  4. Fare clic su Anteprima per visualizzare un'anteprima delle tabelle unite.

  5. Chiudere la finestra di anteprima.

  6. Fare clic su Avanti.

  7. Accettare i nomi di colonna predefiniti e fare clic su Avanti.

  8. Nella pagina Assegna e rivedi , per il Nome vista, immettere APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED.

  9. Questa volta, mantenere selezionata l'opzione Assegna a progetto e scegliere il progetto Integrazione dati .

  10. Fare clic su Crea vista.

  11. Una volta completata la virtualizzazione, fare clic su Vai ai dati virtualizzati per visualizzare la vista di unione appena creata.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la pagina Dati virtualizzati . Si è ora pronti a lavorare con i dati virtuali nel progetto.

Dati virtualizzati




Attività 6: genera una chiave API

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 08:27.

È necessario fornire le proprie credenziali personali sotto forma di una chiave API per visualizzare gli asset virtualizzati. Se non hai già una chiave API salvata, attieniti alla seguente procedura per creare una chiave API.

  1. Accedere alla pagina delle chiavi API nella console IBM Cloud. Accedere se richiesto.

  2. Nella pagina Chiavi API , fai clic su Crea una chiave API IBM Cloud. Se hai delle chiavi API esistenti, il pulsante può essere etichettato come Crea.

  3. Immettere un nome e una descrizione.

  4. Fare clic su Crea.

  5. Copia la chiave API.

  6. Scarica la chiave API per un utilizzo futuro.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la pagina delle chiavi API. È ora possibile visualizzare la tabella virtuale nel progetto.

Pagina Chiavi API




Attività 7: accesso alla vista di unione virtuale nel progetto

video dell'esercitazione di anteprima Per avere un'anteprima di questo compito, guardate il video a partire da 09:01.

La tabella virtuale è stata aggiunta al progetto insieme a una connessione a Data Virtualization. Seguire questa procedura per aprire il progetto per visualizzare i dati virtuali e le informazioni di connessione richieste per accedere ai dati virtuali.

  1. Torna a Cloud Pak for Data. Dal menu di navigazione 'Menu di navigazione, scegliere Progetti > Visualizza tutti i progetti.

  2. Aprire il progetto Integrazione dati .

  3. Fai clic sulla scheda Assets.

  4. Aprire uno qualsiasi dei dati virtualizzati. Ad esempio, fare clic sull'asset di dati che inizia con il nome dello schema seguito da APPLICANTS_APPLICATIONS_CREDIT_SCORE_UNITO per visualizzarlo.

  5. Fornire le proprie credenziali per accedere all'asset di dati.

  6. Per il Metodo di autenticazione, selezionare Chiave API.

  7. Incollare la chiave API.
    'Incolla chiave API

  8. Fai clic su CONNETTI.

  9. Scorrere l'asset di dati per visualizzare tutti i candidati dello Stato della California.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra i dati virtuali nel progetto. È ora possibile analizzare i dati virtuali.

Visualizza tabella virtuale



In qualità di ingegnere dei dati presso Golden Bank, avete utilizzato la Data Virtualization per combinare dati provenienti da fonti diverse e di tipo diverso. Si è utilizzata la sintassi SQL e si è eseguito l'accesso e la combinazione dei dati senza lo spostamento dei dati.


Ripulitura (facoltativo)

Se si desidera riprendere le esercitazioni nel caso di utilizzo dell'integrazione dati, eliminare le seguenti risorse utente.

Risorse utente Come eliminare
Connessioni nel Platform assets catalog Rimuovere una risorsa da un catalogo
Dati virtualizzati Navigare in Dati > Data virtualization; nella pagina dei dati virtualizzati, accedere al menu Overflow 'Menu di overflow per una tabella e selezionare Rimuovi.
Origini dati Navigare in Dati > Data virtualization; nella pagina Origini dati, fare clic sull'icona Elimina 'Elimina per una connessione.
Progetto di esempio di integrazione dati Eliminare un progetto

Passi successivi

Ulteriori informazioni

Argomento principale: Esercitazioni del caso d'uso

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni