È possibile integrare, ripulire e analizzare facilmente i dati da diverse origini dati utilizzando un flusso DataStage . Leggi lo strumento DataStage , guarda un video e fai un'esercitazione adatta agli utenti con una certa conoscenza della trasformazione dei dati, ma che non richiedono la codifica.
- Servizi richiesti
- studio watsonx.ai
- DataStage
Il flusso di lavoro di base include le seguenti attività:
- Creare un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Creare un flusso DataStage .
- Eseguire le operazioni utilizzando le operazioni per perfezionare i dati.
- Creare ed eseguire un lavoro per trasformare i dati.
Informazioni su DataStage
DataStage è uno strumento ETL (extract, transform, load) che è possibile utilizzare per trasformare e integrare i dati nei progetti.
DataStage è progettato per essere facile da usare ed è completamente integrato nella piattaforma. È possibile importare in DataStage i lavori paralleli legacy esistenti tramite file ISX, utilizzare il canvas di DataStage per creare, modificare e testare i flussi ed eseguire i lavori generati dai flussi.
Guarda un video sulla trasformazione dei dati utilizzando un flusso DataStage
Guarda questo video per scoprire come creare un semplice flusso DataStage .
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Prova un'esercitazione per trasformare i dati
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: aprire un progetto.
- Attività 2: aggiungere il dataset al progetto.
- Attività 3: creare un flusso di DataStage .
- Attività 4: modifica dei nodi
- Attività 5: eseguire il flusso DataStage e visualizzare l'asset.
Il completamento di questa esercitazione richiede circa 20 minuti.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
Hai bisogno di un progetto per archiviare il dataset e il flusso DataStage e devi eseguire il provisioning del servizio DataStage . Attieniti alla seguente procedura per aprire un progetto esistente o creare un nuovo progetto ed eseguire il provisioning del servizio:
Dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti
Se si dispone di un progetto esistente, aprirlo.
Se non si dispone di un progetto esistente, fare clic su Nuovo progetto.
Selezionare Crea un progetto vuoto.
Immettere un nome e una descrizione facoltativa per il progetto.
Fare clic su Crea.
Dal menu di navigazione ', fare clic su Servizi > Istanze di servizio.
Fai clic su Add service e seleziona DataStage.
Fare clic su Crea. Vedrai il servizio di cui è stato eseguito il provisioning nella pagina Istanze del servizio .
Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.
Controllare i progressi
La seguente immagine mostra i servizi di cui è stato eseguito il provisioning.
Attività 2: aggiungere il dataset al progetto
Il dataset utilizzato in questa esercitazione è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:
Accedere al set di dati Clienti nell'hub Risorse.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.
Controllare i progressi
La seguente immagine mostra la scheda Asset nel progetto
Attività 3: creazione di un flusso DataStage
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:26.
Il flusso DataStage conterrà quattro nodi: l'asset di dati originale, un nodo filtro, un nodo di ordinamento e l'asset di dati trasformato. Effettuare le operazioni riportate di seguito per creare il flusso DataStage :
Clic Nuova risorsa > Trasforma e integra i dati .
Fornire un nome e una descrizione, quindi fare clic su Crea.
Fare clic su Connettori , quindi trascinare e rilasciare il nodo Browser asset nell'area.
Selezionare Asset dati> customers.csve fare clic su Aggiungi.
Nella palette dei nodi, espandere la sezione Stage e trascinare il nodo Filtro nell'area.
Per collegare i nodi, fare clic sulla freccia blu sul nodo Customers.csv e trascinarlo sul nodo Filtro .
Nella sezione Stage , trascinare il nodo Ordina nell'area.
Collegare il nodo Filtro al nodo Ordina .
Espandere la sezione Connettori , quindi trascinare il nodo Browser asset nell'area.
Selezionare Asset dati> customers.csve fare clic su Aggiungi. Il nome file verrà modificato successivamente in modo da non sovrascrivere il file customer.csv .
Connettere il nodo Ordina a questo ultimo nodo Customers.csv .
Controllare i progressi
L'immagine seguente mostra il flusso iniziale.
Attività 4: modifica dei nodi
Per avere un'anteprima di questo compito, guardate il video a partire da 03:27.
Effettuare le operazioni riportate di seguito per modificare le proprietà di ciascun nodo nell'area di disegno:
Nodo 1: modificare il primo nodo del browser Asset
Fare doppio clic sul primo nodo Customer.csv .
Nel pannello Proprietà a destra, rinominare il nodo in
CustomerTable
per rinominarlo.Fare clic sulla scheda Output .
Espandere la sezione Colonne e fare clic su Modifica.
Per la colonna YTD_SALES, selezionare Tipo di dati e scegliere DECIMALE per modificare il tipo di dati della colonna YTD_SALES.
Fare clic su Applica e ritorna per tornare alla finestra Proprietà.
Fare clic su Salva per salvare le modifiche al nodo Tabella clienti .
Nodo 2: modifica del nodo Filtro
Fare doppio clic sul nodo Filtro .
Nel pannello Proprietà , rinominare il testo
Filter_1
inFilterYTDSales
per rinominare il nodo Filtro.Espandere la sezione Proprietà . In Predicati, fare clic su Modifica.
Nella colonna Clausola Where , immettere
YTD_SALES > 1000
.Fare clic su Applica e ritorna.
Fare clic sulla scheda Output .
Espandere la sezione Colonne e fare clic su Modifica.
Selezionare tutte le colonne e deselezionare le colonne elencate di seguito che verranno mantenute per questa esercitazione.
- ID_CLIENTE
- NOMECLIENTE
- CODICE_CONTEGGIO
- INDIRIZZO_EMAIL
- NUMERO_TELEFONO
- YTD_SALES
- ID_SALESREP
Fare clic sull'icona Elimina righe selezionate ' per eliminare le restanti colonne selezionate.
Per la colonna CUSTNAME , rinominarla in
CUSTOMERNAME
. Questa modifica si propagherà fino ai nodi che seguono il nodo Filtro .Fare clic su Applica e ritorna per tornare alla finestra Proprietà.
Fare clic sul pulsante Salva per salvare le modifiche al nodo Filtro .
Nodo 3: modifica del nodo Ordina
Fare doppio clic su Ordina .
Nel pannello Proprietà , rinominare il testo
Sort_1
inSortYTDSales
per rinominare il nodo di ordinamento.Espandere la sezione Proprietà .
In corrispondenza di Chiavi di ordinamento, fare clic su Aggiungi chiave.
Fare clic su Aggiungi chiave.
Dal menu a discesa Chiave , selezionare YTD_SALES.
Per Ordinamento, selezionare Decrescente.
Fare clic su Applica per ritornare all'elenco di chiavi di ordinamento.
Fare clic su Applica e ritorna per tornare alla finestra Proprietà.
Fare clic sulla scheda Input ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .
Fare clic sulla scheda Output ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .
Fare clic su Salva per salvare le modifiche al nodo Ordina .
Nodo 4: modifica dell'ultimo nodo del browser Asset
Fare doppio clic sul nodo Customers.csv .
Nel pannello Proprietà , rinominare il nodo in
CustomerFilteredTable
per rinominarlo.Espandere la sezione Proprietà e selezionare la check box Crea asset di dati.
Per il campo Nome risorsa dati, digitare '
Customers filtered
.Fare clic sulla scheda Input ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .
Fare clic su Salva per salvare le modifiche al nodo Tabella filtrata clienti .
Controllare i progressi
L'immagine seguente mostra il flusso finale.
Attività 5: eseguire il flusso DataStage e visualizzare l'asset
Per vedere un'anteprima di questo compito, guardate il video a partire da 06:36.
Ora è possibile eseguire il flusso. Attenersi alla seguente procedura per eseguire il flusso e visualizzare l'asset trasformato nel progetto:
Fare clic su Salva.
Fare clic su Compila.
Fare clic su Esegui.
(Facoltativo) Fare clic sul link Log per visualizzare i dettagli dell'esecuzione.
Fare doppio clic sull'ultimo nodo Tabella filtrata clienti .
Espandere la sezione Proprietà .
Scorrere verso il basso e fare clic su Anteprima dati. I dati sono stati filtrati e ordinati correttamente.
Fare clic su Grafico .
Per Colonne da visualizzare, selezionare YTD_SALES.
Per Tipo grafico, fare clic su Grafico Q-Q.
Fare clic su Chiudi.
Poiché si imposta il flusso per creare un asset di dati nel progetto, fare clic sul nome del progetto nella traccia di navigazione per tornare al progetto.
Nella scheda Asset , aprire l'asset Clienti filtrati .
Controllare i progressi
La seguente immagine mostra l'asset di dati filtrato dei clienti.
Passi successivi
Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:
Prova altre esercitazioni:
Aggiungere l'asset di dati a un catalogo per condividerlo con l'organizzazione
Ulteriori risorse
Visualizza altri video.
Trovate set di dati di esempio per acquisire esperienza pratica nella trasformazione dei dati nell'hub delle risorse.
Iniziare con il progetto DataStage di esempio: COVID-19 Tracciamento con IBM DataStage.
Provate questo ulteriore tutorial per acquisire maggiore esperienza pratica con i flussi di DataStage: Iniziare a usare il nuovo servizio IBM DataStage '.
Argomento principale: Esercitazioni introduttive