DataStage è uno strumento di integrazione dei dati modernizzato che consente agli utenti di creare pipeline di dati affidabili, orchestrare i dati in ambienti distribuiti e spostare e trasformare i dati tra le origini cloud e i data warehouse. Fornisce un connettore Snowflake, tra molti altri, per scrivere, leggere e caricare dati in Snowflake e integrarlo nella progettazione del job ETL. Questa esercitazione di avvio rapido illustra come caricare i dati aziendali in Snowflake in modo rapido ed efficiente tramite DataStage.
- Servizi richiesti
- DataStage
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: creare un data warehouse Snowflake.
- Attività 3: crea il progetto di esempio ed esegui il provisioning del servizio DataStage .
- Attività 3: creare una connessione al data warehouse Snowflake.
- Attività 4: creare un flusso DataStage .
- Attività 5: progettazione del flusso DataStage .
- Attività 6: eseguire il flusso DataStage .
- Attività 7: visualizzare l'asset di dati nel data warehouse Snowflake.
Il completamento di questa esercitazione richiede circa 20 minuti.
Anteprima dell'esercitazione
Guarda questo video per scoprire come creare un semplice flusso DataStage .
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Imposta i requisiti
Registrati per un account di prova Snowflake
Per avere un'anteprima di questa attività, guardate il video a partire da 00:05.
Andare su https://www.snowflake.com/
Fare clic su START FOR FREE.
Completare il modulo di registrazione e fare clic su Continua.
Nella pagina START YOUR 30 - DAY FREE TRIAL , completa questa procedura:
Scegli un'edizione Snowflake.
Scegliere un provider cloud.
Fai clic su Get started.
Salta le domande finché non visualizzi il messaggio Grazie per esserti registrato con Snowflake .
Accedere al proprio account email, aprire l'e-mail da Snowflake Computinge fare clic su FARE CLIC PER ATTIVARE.
Fornire un nome utente e una password e fare clic su Introduzione.
Controllare i progressi
La seguente immagine mostra il dashboard Snowflake:
Registrati per la versione di prova di DataStage su Cloud Pak for Data as a Service
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:36.
Devi registrarti per Cloud Pak for Data as a Service e fornire il servizio DataStage . Andate alla pagina di prova diDataStage. Utilizzando questo collegamento, viene eseguito il provisioning dei seguenti servizi:
- DataStage
- Cloud Object Storage
Con IBMid esistente
Se hai un IBMidesistente, guarda questo breve video.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Con il nuovo IBMid
Se non hai un IBMidesistente, guarda questo breve video.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Controllare i progressi
La seguente immagine mostra la home page di Cloud Pak for Data :
Per ulteriori informazioni sui servizi di provisioning, vedi Creazione e gestione dei servizi IBM Cloud.
Controllare i progressi
La seguente immagine mostra le istanze del servizio di cui è stato eseguito il provisioning richieste. Sei ora pronto per iscriverti alla versione di prova di Snowflake.
Attività 1: creare un data warehouse Snowflake
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:51.
Il tuo obiettivo è di utilizzare DataStage per caricare i dati nel tuo account Snowflake. Per farlo, hai bisogno di un data warehouse nel tuo account Snowflake. Attenersi alla seguente procedura per creare un data warehouse nel proprio account Snowflake:
Accedi al tuo account di prova Snowflake.
Nel pannello di navigazione, fare clic su Amministrazione> Magazzini.
Fare clic su + Warehouse.
Per il nome, immettere:
DATASTAGEDATA
Accettare i valori predefiniti per il resto dei campi e fare clic su Crea warehouse.
Nel pannello di navigazione, fare clic su Dati.
Nella pagina Database , fare clic su + Database.
Per il nome, immettere
DATASTAGEDB
e fare clic su Crea.
Fare clic sul database DATASTAGEDB appena creato nell'elenco e selezionare + Schema.
Per il nome Schema , immettere:
MORTGAGE
Fare clic su Crea.
Nell'elenco dei database, selezionare DATASTAGEDB> MORTGAGE.
Controllare i progressi
La seguente immagine mostra il database DATASTAGEDB in Snowflake. Ora è possibile creare il progetto di esempio in Cloud Pak for Data per informazioni sulla connessione e il flusso DataStage .
Attività 2: creare il progetto DataStage
Per avere un'anteprima di questo compito, guardate il video a partire da 01:46.
È necessario un progetto per memorizzare le connessioni alle origini dati esterne e al flusso DataStage . Attenersi alla seguente procedura per creare il progetto di esempio:
Accedere al progetto campione di integrazione dei dati nell'hub Risorse.
Fare clic su Crea progetto.
Se ti viene richiesto di associare il progetto a un'istanza Cloud Object Storage , seleziona un'istanza Cloud Object Storage dall'elenco.
Fare clic su Crea.
Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto.
Fare clic sulla scheda Asset per verificare che il progetto e gli asset siano stati creati correttamente.
Controllare i progressi
La seguente immagine mostra il progetto di esempio. Ora è possibile creare la connessione a Snowflake.
Attività 3: creare una connessione al data warehouse Snowflake
Per vedere un'anteprima di questo compito, guardate il video a partire da 02:17.
È necessario aggiungere le informazioni di connessione al progetto in modo da poter accedere al data warehouse Snowflake nel flusso DataStage . Seguire questa procedura per creare un asset di connessione nel progetto:
Nella pagina Asset , fare clic su Nuovo asset> Connetti a una origine dati.
Cerca Fiocco di neve in Trova connettori campo di ricerca.
Seleziona il Fiocco di neve tipo di connessione e fare clic su Prossimo .
Nella pagina Crea connessione: Snowflake , immettere
Snowflake
per il nome della connessione.Per i Dettagli di connessione, completare i seguenti campi utilizzando le informazioni dall'account Snowflake appena creato:
Nome account: il nome account è una combinazione dell'ID account, della regione e del provider cloud. Puoi trovare queste informazioni nell'URL quando hai effettuato l'accesso al tuo account Snowflake.
Fare clic sul proprio nome utente per visualizzare le opzioni del menu.
Passare il mouse sul proprio Account.
Nel menu dell'account, passare il mouse sul link del proprio account.
Fare clic sull'icona Copia l'URL dell'account, come si vede nell'immagine seguente:
Database: tipo
DATASTAGEDB
Ruolo: tipo
ACCOUNTADMIN
Warehouse: Tipo
DATASTAGEDATA
Nome utente: Digita il nome utente del tuo account Snowflake.
Password: digita la password del tuo account Snowflake.
Fare clic su Verifica connessione per verificare la connessione al proprio account Snowflake.
Se il test ha esito positivo, fare clic su Crea. Se viene richiesto di creare la connessione senza impostare l'ubicazione e la sovranità, fare clic su Crea. Questa azione crea il connettore Snowflake, che è possibile utilizzare per caricare i dati da Db2 Warehouse nel proprio account Snowflake.
Controllare i progressi
La seguente immagine mostra le informazioni sulla nuova connessione. Ora è possibile creare il flusso di DataStage .
Attività 4: creazione di un flusso DataStage
Per avere un'anteprima di questo compito, guardate il video a partire da 03:20.
Ora si è pronti a creare un asset DataStage nel progetto. Effettuare le operazioni riportate di seguito per creare il flusso DataStage :
Dal Risorse scheda, fare clic Nuova risorsa > Trasforma e integra i dati .
Per Nome, immettere:
Load Db2 data to Snowflake
Fare clic su Crea.
Controllare i progressi
La seguente immagine mostra l'area di disegno DataStage vuota. Ora è possibile progettare il flusso di DataStage .
Attività 5: progettazione del flusso DataStage
Il flusso DataStage contiene due nodi connettore: il connettore Db2 Warehouse che punta all'asset di dati di origine e il connettore Snowflake che punta all'asset di dati di destinazione e diversi altri nodi per unire e filtrare gli asset di dati. Attenersi alla seguente procedura per aggiungere i nodi all'area di disegno:
Aggiungere i due nodi connettore
Per vedere un'anteprima di questo compito, guardate il video a partire da 03:36.
Effettuare le operazioni riportate di seguito per aggiungere i due nodi connettore all'area di disegno:
Aggiungere il nodo connettore Sorgente
Nella palette dei nodi, espandere la sezione Connettori .
Trascinare il connettore Browser asset e rilasciarlo in un punto qualsiasi nell'area vuota.
Quando si rilascia il connettore Browser asset nell'area di disegno, viene richiesto di selezionare l'asset.
Per individuare l'asset, selezionare Connessione> Data Fabric Prova - Db2 Warehouse > BANKING> APPLICAZIONE_IPOTECA.
Suggerimento: per espandere la connessione e lo schema, fare clic sul nome della connessione o dello schema invece della casella di spunta.Fare clic su Aggiungi per rilasciare l'origine dati Db2 Warehouse sull'area di disegno DataStage .
Aggiungere il nodo connettore Target
Nella Tavolozza dei nodi, espandere la sezione Connettori .
Trascinare il connettore Browser asset e rilasciarlo nell'area in modo che sia posizionato come secondo nodo.
Per individuare l'asset, selezionare Connessione> Snowflake> MUTUO.
Suggerimento : fare clic sulla casella di controllo per selezionare il nome dello schema MORTGAGE.Fare clic su Aggiungi per rilasciare la connessione Snowflake nell'area di disegno DataStage .
Per collegare i nodi, passare con il mouse sul nodo Mortgage_Application_1 finché non viene visualizzata una freccia. Trascinare la freccia sulla connessione Snowflake per collegare i due nodi.
Configurare i nodi di origine e di destinazione
Fare doppio clic sul nodo MORTGAGE per visualizzarne le impostazioni.
Fare clic sulla scheda Output .
Selezionare l'opzione Propagazione colonna runtime . DataStage è flessibile sui metadati. Può gestire situazioni in cui i metadati non sono completamente definiti. In questo caso, si seleziona Propagazione colonna runtime per garantire che se il job DataStage rileva colonne aggiuntive non definite nei metadati quando il job viene effettivamente eseguito, adotti queste colonne aggiuntive e le propaghi nel resto del job. Questa funzione consente alla progettazione del flusso di essere flessibile per la deviazione dello schema.
Fare clic su Salva.
Poiché stai leggendo i dati da Db2 Warehouse in Snowflake, il connettore Db2 Warehouse viene posizionato per primo nel flusso. L'obiettivo è quello di caricare i dati Db2 Warehouse in Snowflake. Successivamente, aggiungere un connettore Snowflake che legge i dati dal connettore Db2 Warehouse . Quindi, il connettore Snowflake è posizionato secondo nel flusso.
Fare doppio clic sul connettore MORTGAGE per visualizzarne le impostazioni.
Modificare il nome nodo in
Snowflake_mortgage_data
Nel pannello laterale delle impostazioni, fare clic sulla scheda Input .
Espandere la sezione Utilizzo .
Per Modalità di scrittura, selezionare Inserisci.
Per Nome tabella, aggiungere
APPLICATION
dopo il nome schema, in modo che il nome completo della tabella siaMORTGAGE.APPLICATION
.Per Azione tabella, selezionare Crea. Questa impostazione crea la tabella nel database e nello schema specificati in Snowflake e carica i dati aziendali in tale tabella.
Accettare i valori predefiniti per tutti gli altri campi nella sezione Azioni .
Fare clic su Salva per aggiornare le modifiche e ritornare al flusso DataStage .
Aggiungere i nodi per unire e filtrare i dati
Per vedere un'anteprima di questo compito, guardate il video a partire da 05:40.
Ora si dispone di un flusso DataStage di base per caricare i dati in Snowflake. Seguire questa procedura per aggiungere diversi nodi per unire e filtrare i dati:
Aggiungere un altro nodo connettore Asset
Nella palette dei nodi, espandere la sezione Connettori .
Trascinare il connettore Browser asset nell'area di disegno vicino al nodo MORTGAGE Application.
Quando si rilascia il connettore Browser asset nell'area di disegno, viene richiesto di selezionare l'asset.
Per individuare l'asset, selezionare Connection> Data Fabric Trial - Db2 Warehouse > BANKING> MORTGAGE AGE_RICORRENTE.
Suggerimento: per espandere la connessione e lo schema, fare clic sul nome della connessione o dello schema invece della casella di spunta.Fare clic su Aggiungi per rilasciare l'origine dati Db2 Warehouse sull'area di disegno DataStage .
Aggiungere il nodo della fase Join
Nella Tavolozza dei nodi, espandere la sezione Stage .
Nella Tavolozza dei nodi, trascinare lo stage Join nell'area di disegno e rilasciare il nodo sulla linea di collegamento tra MORTGAGE e i nodi Snowflake_mortgage . Questa azione gestisce i collegamenti dal nodo MORTGAGE age_application al nodo JOIN al nodo Snowflake_mortgage age_data .
Passare con il mouse sul connettore MORTGAGE per visualizzare la freccia. Connetti la freccia allo stage Join .
Fare doppio clic sul nodo MORTGAGE per visualizzarne le impostazioni.
Fare clic sulla scheda Output .
Selezionare l'opzione Propagazione colonna runtime . Come menzionato in precedenza, questa opzione consente la deviazione dello schema.
Fare clic su Salva.
Fare doppio clic su Join_1 per modificare le impostazioni.
Espandere la sezione Proprietà .
Fare clic su Aggiungi chiave.
Fare nuovamente clic su Aggiungi chiave .
Selezionare ID dall'elenco di chiavi possibili.
Fai clic su Applica.
Fare clic su Applica e ritorna per tornare alle impostazioni di nodo Join_1 .
Modificare il nome nodo Join_1 in
Join_on_ID
.Fare clic sulla scheda Output .
Selezionare l'opzione Propagazione colonna runtime per adattare la deviazione dello schema.
Fare clic su Salva per salvare le impostazioni del nodo Join_on_ID .
Aggiungere il nodo Stadio filtro
Nella palette dei nodi, nella sezione Stages , trascinare il nodo Filter nell'area di disegno e rilasciare il nodo sulla riga di link tra i nodi Join_on_ID e Snowflake_mortgage .
Fare doppio clic su Filter_1 per modificarle.
Espandere la sezione Proprietà .
In Predicati, fare clic su Modifica.
Fare clic sull'icona Modifica '
nella colonna della clausola Where e digitare '
STATE_CODE='CA'
. Questa clausola filtra le domande di mutuo solo ai richiedenti della California.Fare clic su Applica e ritorna.
Fare clic sulla scheda Output .
- Selezionare l'opzione Propagazione colonna runtime per adattare la deviazione dello schema.
Fare clic su Salva per salvare le impostazioni del nodo Filter .
Controllare i progressi
La seguente immagine mostra il flusso DataStage completato. Ora è possibile eseguire il job di DataStage .
Attività 6: esecuzione del lavoro DataStage
Per vedere un'anteprima di questo compito, guardate il video a partire da 07:23.
Ora è possibile compilare ed eseguire il lavoro DataStage per caricare i dati dell'applicazione del mutuo da Db2 Warehouse in Snowflake. Attenersi alla seguente procedura per eseguire il job DataStage :
Nella barra degli strumenti, fare clic su Compila. Questa azione convalida il flusso DataStage .
Quando il flusso viene compilato correttamente, fare clic su Esegui sulla barra degli strumenti per avviare il lavoro DataStage . Il completamento dell'esecuzione potrebbe richiedere alcuni minuti.
Una volta completata l'esecuzione, viene visualizzato un messaggio che indica Esegui correttamente con avvertenze.
Controllare i progressi
La seguente immagine mostra l'esecuzione completata correttamente. Ora che il job DataStage è stato completato correttamente, è possibile visualizzare la nuova tabella in Snowflake.
Attività 7: visualizzazione dell'asset di dati nel data warehouse Snowflake
Per vedere un'anteprima di questo compito, guardate il video a partire da 07:31.
Per verificare se i dati sono stati caricati correttamente in Snowflake, è possibile tornare al dashboard Snowflake.
Passare a Dati> Database.
Espandere DATASTAGEDB> MORTGAGE> TABLES.
Selezionare la tabella APPLICATION .
Sotto il nome della tabella, selezionare la scheda Anteprima dati .
Selezionare l'archivio DATASTAGEDATA .
Fare clic su Anteprima per visualizzare un'anteprima dei dati Applicazione mutuo importati da DataStage.
Controllare i progressi
La seguente immagine mostra la tabella caricata in Snowflake.
I dati aziendali sono stati caricati correttamente da Db2 Warehouse in Snowflake utilizzando DataStage.
Passi successivi
Prova altre esercitazioni:
Ulteriori informazioni
Visualizza altri video