Avvio rapido: Trasforma dati
È possibile integrare, ripulire e analizzare facilmente i dati da diverse origini dati utilizzando un flusso DataStage . Leggi lo strumento DataStage , guarda un video e fai un'esercitazione adatta agli utenti con una certa conoscenza della trasformazione dei dati, ma che non richiedono la codifica.
- Servizi richiesti
- Watson Studio
- DataStage
Il flusso di lavoro di base include le seguenti attività:
- Creare un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Creare un flusso DataStage .
- Eseguire le operazioni utilizzando le operazioni per perfezionare i dati.
- Creare ed eseguire un lavoro per trasformare i dati.
Informazioni su DataStage
DataStage è uno strumento ETL (extract, transform, load) che è possibile utilizzare per trasformare e integrare i dati nei progetti.
DataStage è progettato per semplificare l'utilizzo ed è completamente integrato in Cloud Pak for Data. È possibile importare i job paralleli legacy esistenti in DataStage mediante l'utilizzo di file ISX, utilizzare l'area di disegno DataStage per creare, modificare e verificare i flussi ed eseguire i lavori generati dai flussi.
Guarda un video sulla trasformazione dei dati utilizzando un flusso DataStage
Guarda questo video per scoprire come creare un semplice flusso DataStage .
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Prova un'esercitazione per trasformare i dati
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: aprire un progetto.
- Attività 2: aggiungere il dataset al progetto.
- Attività 3: creare un flusso di DataStage .
- Attività 4: modifica dei nodi
- Attività 5: eseguire il flusso DataStage e visualizzare l'asset.
Il completamento di questa esercitazione richiede circa 20 minuti.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàCloud Pak for Data.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
Hai bisogno di un progetto per archiviare il dataset e il flusso DataStage e devi eseguire il provisioning del servizio DataStage . Attieniti alla seguente procedura per aprire un progetto esistente o creare un nuovo progetto ed eseguire il provisioning del servizio:
Dal menu di navigazione Cloud Pak for Data , scegliere Progetti> Visualizza tutti i progetti
Se si dispone di un progetto esistente, aprirlo.
Se non si dispone di un progetto esistente, fare clic su Nuovo progetto.
Selezionare Crea un progetto vuoto.
Immettere un nome e una descrizione facoltativa per il progetto.
Fare clic su Crea.
Da Menu di navigazione , fai clic su Servizi> Istanze del servizio.
Fai clic su Add service e seleziona DataStage.
Fare clic su Crea. Vedrai il servizio di cui è stato eseguito il provisioning nella pagina Istanze del servizio .
Per ulteriori informazioni o per guardare un video, consultare Creazione di un progetto.
Controlla i tuoi progressi
La seguente immagine mostra i servizi di cui è stato eseguito il provisioning.
Attività 2: aggiungere il dataset al progetto
Il dataset utilizzato in questa esercitazione è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:
Accedere al dataset Clienti nell'hub di risorse.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.
Controlla i tuoi progressi
La seguente immagine mostra la scheda Asset nel progetto
Attività 3: creazione di un flusso DataStage
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 00:00.
Il flusso DataStage conterrà quattro nodi: l'asset di dati originale, un nodo filtro, un nodo di ordinamento e l'asset di dati trasformato. Effettuare le operazioni riportate di seguito per creare il flusso DataStage :
Clic Nuova risorsa > Trasforma e integra i dati .
Fornire un nome e una descrizione, quindi fare clic su Crea.
Fare clic su Connettori , quindi trascinare e rilasciare il nodo Browser asset nell'area.
Selezionare Asset dati> customers.csve fare clic su Aggiungi.
Nella palette dei nodi, espandere la sezione Stage e trascinare il nodo Filtro nell'area.
Per collegare i nodi, fare clic sulla freccia blu sul nodo Customers.csv e trascinarlo sul nodo Filtro .
Nella sezione Stage , trascinare il nodo Ordina nell'area.
Collegare il nodo Filtro al nodo Ordina .
Espandere la sezione Connettori , quindi trascinare il nodo Browser asset nell'area.
Selezionare Asset dati> customers.csve fare clic su Aggiungi. Il nome file verrà modificato successivamente in modo da non sovrascrivere il file customer.csv .
Connettere il nodo Ordina a questo ultimo nodo Customers.csv .
Controlla i tuoi progressi
La seguente immagine mostra il flusso DataStage iniziale.
Attività 4: modifica dei nodi
Per visualizzare in anteprima questa attività, guardare il video a partire dalle 03:27.
Effettuare le operazioni riportate di seguito per modificare le proprietà di ciascun nodo nell'area di disegno:
Nodo 1: modificare il primo nodo del browser Asset
Fare doppio clic sul primo nodo Customer.csv .
Nel pannello Proprietà a destra, rinominare il nodo in
Customer Table
per rinominarlo.Fare clic sulla scheda Output .
Espandere la sezione Colonne e fare clic su Modifica.
Per la colonna YTD_SALES , fare clic su VARCHAR e selezionare DECIMAL per modificare il tipo di dati della colonna YTD_SALES .
Fare clic su Applica e ritorna per tornare alla finestra Proprietà.
Fare clic su Salva per salvare le modifiche al nodo Tabella clienti .
Nodo 2: modifica del nodo Filtro
Fare doppio clic sul nodo Filtro .
Nel pannello Proprietà , rinominare il testo
Filter_1
inFilter YTD Sales
per rinominare il nodo Filtro.Espandere la sezione Proprietà . In Predicati, fare clic su Modifica.
Fare clic su Aggiungi clausola where.
Nella colonna Clausola Where , immettere
YTD_SALES > 1000
.Fare clic su Applica e ritorna.
Fare clic sulla scheda Output .
Espandere la sezione Colonne e fare clic su Modifica.
Selezionare tutte le colonne e deselezionare le seguenti colonne elencate di seguito che verranno conservate per questa esercitazione.
- ID_CLIENTE
- NOMECLIENTE
- CODICE_CONTEGGIO
- INDIRIZZO_EMAIL
- NUMERO_TELEFONO
- YTD_SALES
- ID_SALESREP
Fare clic sull'icona del cestino per eliminare le restanti colonne selezionate.
Per la colonna CUSTNAME , rinominarla in
CUSTOMERNAME
. Questa modifica si propagherà fino ai nodi che seguono il nodo Filtro .Fare clic su Applica e ritorna per tornare alla finestra Proprietà.
Fare clic sul pulsante Salva per salvare le modifiche al nodo Filtro .
Nodo 3: modifica del nodo Ordina
Fare doppio clic su Ordina .
Nel pannello Proprietà , rinominare il testo
Sort_1
inSort YTD Sales
per rinominare il nodo di ordinamento.Espandere la sezione Proprietà .
In Ordinamento chiavi, fare clic su Modifica.
Fare clic su Aggiungi chiave.
Dal menu a discesa Chiave , selezionare YTD_SALES.
Per Ordinamento, selezionare Decrescente.
Fare clic su Applica per ritornare all'elenco di chiavi di ordinamento.
Fare clic su Applica e ritorna per tornare alla finestra Proprietà.
Fare clic sulla scheda Input ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .
Fare clic sulla scheda Output ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .
Fare clic su Salva per salvare le modifiche al nodo Ordina .
Nodo 4: modifica dell'ultimo nodo del browser Asset
Fare doppio clic sul nodo Customers.csv .
Nel pannello Proprietà , rinominare il nodo in
Customer filtered table
per rinominarlo.Espandere la sezione Proprietà e selezionare la check box Crea asset di dati.
Per il campo Nome asset di dati , immettere
Customers filtered
e fare clic su Salva.Fare clic sulla scheda Input ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .
Fare clic su Salva per salvare le modifiche al nodo Tabella filtrata clienti .
Controlla i tuoi progressi
La seguente immagine mostra il flusso DataStage finale.
Attività 5: eseguire il flusso DataStage e visualizzare l'asset
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 06:36.
Ora è possibile eseguire il flusso. Attenersi alla seguente procedura per eseguire il flusso e visualizzare l'asset trasformato nel progetto:
Fare clic su Salva.
Fare clic su Compila.
Fare clic su Esegui.
(Facoltativo) Fare clic sul link Log per visualizzare i dettagli dell'esecuzione.
Fare doppio clic sull'ultimo nodo Tabella filtrata clienti .
Espandere la sezione Proprietà .
Scorrere verso il basso e fare clic su Anteprima dati. I dati sono stati filtrati e ordinati correttamente.
Fare clic su Grafico .
Per Colonne da visualizzare, selezionare YTD_SALES.
Per Tipo grafico, fare clic su Grafico Q-Q.
Fare clic su Chiudi.
Poiché si imposta il flusso per creare un asset di dati nel progetto, fare clic sul nome del progetto nella traccia di navigazione per tornare al progetto.
Nella scheda Asset , aprire l'asset Clienti filtrati .
Controlla i tuoi progressi
La seguente immagine mostra l'asset di dati filtrato dei clienti.
Passi successivi
Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:
Prova altre esercitazioni:
Aggiungere l'asset di dati a un catalogo per condividerlo con l'organizzazione
Ulteriori risorse
Visualizza altri video.
Inizia con il progetto DataStage di esempio: COVID-19 Tracking with IBM DataStage.
Trova dataset di esempio per ottenere un'esperienza pratica nella trasformazione dei dati nell' hub di risorse.
Prova questa ulteriore esercitazione per ottenere un'esperienza più pratica con i flussi DataStage : Introduzione all'utilizzo del nuovo servizio IBM DataStage .
Argomento principale: Esercitazioni introduttive