0 / 0
Torna alla versione inglese della documentazione
Avvio rapido: Trasforma dati

Avvio rapido: Trasforma dati

È possibile integrare, ripulire e analizzare facilmente i dati da diverse origini dati utilizzando un flusso DataStage . Leggi lo strumento DataStage , guarda un video e fai un'esercitazione adatta agli utenti con una certa conoscenza della trasformazione dei dati, ma che non richiedono la codifica.

Servizi richiesti
Watson Studio
DataStage

Il flusso di lavoro di base include le seguenti attività:

  1. Creare un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
  2. Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
  3. Creare un flusso DataStage .
  4. Eseguire le operazioni utilizzando le operazioni per perfezionare i dati.
  5. Creare ed eseguire un lavoro per trasformare i dati.

Informazioni su DataStage

DataStage è uno strumento ETL (extract, transform, load) che è possibile utilizzare per trasformare e integrare i dati nei progetti.

DataStage è progettato per semplificare l'utilizzo ed è completamente integrato in Cloud Pak for Data. È possibile importare i job paralleli legacy esistenti in DataStage mediante l'utilizzo di file ISX, utilizzare l'area di disegno DataStage per creare, modificare e verificare i flussi ed eseguire i lavori generati dai flussi.

Ulteriori informazioni su DataStage

Guarda un video sulla trasformazione dei dati utilizzando un flusso DataStage

Guarda il video Guarda questo video per scoprire come creare un semplice flusso DataStage .

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.


Prova un'esercitazione per trasformare i dati

In questa esercitazione, verranno completate le seguenti attività:

Il completamento di questa esercitazione richiede circa 20 minuti.





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulla data / ora per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare il picture-in-picture e i capitoli

Ottieni aiuto nella community

Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàCloud Pak for Data.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Attività 1: apertura di un progetto

Hai bisogno di un progetto per archiviare il dataset e il flusso DataStage e devi eseguire il provisioning del servizio DataStage . Attieniti alla seguente procedura per aprire un progetto esistente o creare un nuovo progetto ed eseguire il provisioning del servizio:

  1. Dal menu di navigazione Cloud Pak for Data Menu di navigazione, scegliere Progetti> Visualizza tutti i progetti

  2. Se si dispone di un progetto esistente, aprirlo.

  3. Se non si dispone di un progetto esistente, fare clic su Nuovo progetto.

  4. Selezionare Crea un progetto vuoto.

  5. Immettere un nome e una descrizione facoltativa per il progetto.

  6. Fare clic su Crea.

  7. Da Menu di navigazione Menu di navigazione, fai clic su Servizi> Istanze del servizio.

  8. Fai clic su Add service e seleziona DataStage.

  9. Fare clic su Crea. Vedrai il servizio di cui è stato eseguito il provisioning nella pagina Istanze del servizio .

Per ulteriori informazioni o per guardare un video, consultare Creazione di un progetto.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra i servizi di cui è stato eseguito il provisioning.

La seguente immagine riporta i servizi di cui è stato eseguito il provisioning.




Attività 2: aggiungere il dataset al progetto

Il dataset utilizzato in questa esercitazione è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:

  1. Accedere al dataset Clienti nell'hub di risorse.

  2. Fare clic su Aggiungi al progetto.

  3. Selezionare il progetto dall'elenco e fare clic su Aggiungi.

  4. Una volta aggiunto il dataset, fare clic su Visualizza progetto.

Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Asset nel progetto

La seguente immagine mostra la scheda Asset nel progetto.




Attività 3: creazione di un flusso DataStage

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 00:00.

Il flusso DataStage conterrà quattro nodi: l'asset di dati originale, un nodo filtro, un nodo di ordinamento e l'asset di dati trasformato. Effettuare le operazioni riportate di seguito per creare il flusso DataStage :

  1. Clic Nuova risorsa > Trasforma e integra i dati .

  2. Fornire un nome e una descrizione, quindi fare clic su Crea.

  3. Fare clic su Connettori , quindi trascinare e rilasciare il nodo Browser asset nell'area.

  4. Selezionare Asset dati> customers.csve fare clic su Aggiungi.

  5. Nella palette dei nodi, espandere la sezione Stage e trascinare il nodo Filtro nell'area.

  6. Per collegare i nodi, fare clic sulla freccia blu sul nodo Customers.csv e trascinarlo sul nodo Filtro .

  7. Nella sezione Stage , trascinare il nodo Ordina nell'area.

  8. Collegare il nodo Filtro al nodo Ordina .

  9. Espandere la sezione Connettori , quindi trascinare il nodo Browser asset nell'area.

  10. Selezionare Asset dati> customers.csve fare clic su Aggiungi. Il nome file verrà modificato successivamente in modo da non sovrascrivere il file customer.csv .

  11. Connettere il nodo Ordina a questo ultimo nodo Customers.csv .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra il flusso DataStage iniziale.

La seguente immagine mostra il flusso DataStage iniziale.




Attività 4: modifica dei nodi

video dell'esercitazione di anteprima Per visualizzare in anteprima questa attività, guardare il video a partire dalle 03:27.

Effettuare le operazioni riportate di seguito per modificare le proprietà di ciascun nodo nell'area di disegno:

Nodo 1: modificare il primo nodo del browser Asset

  1. Fare doppio clic sul primo nodo Customer.csv .

  2. Nel pannello Proprietà a destra, rinominare il nodo in Customer Table per rinominarlo.

  3. Fare clic sulla scheda Output .

  4. Espandere la sezione Colonne e fare clic su Modifica.

  5. Per la colonna YTD_SALES , fare clic su VARCHAR e selezionare DECIMAL per modificare il tipo di dati della colonna YTD_SALES .

  6. Fare clic su Applica e ritorna per tornare alla finestra Proprietà.

  7. Fare clic su Salva per salvare le modifiche al nodo Tabella clienti .

Nodo 2: modifica del nodo Filtro

  1. Fare doppio clic sul nodo Filtro .

  2. Nel pannello Proprietà , rinominare il testo Filter_1 in Filter YTD Sales per rinominare il nodo Filtro.

  3. Espandere la sezione Proprietà . In Predicati, fare clic su Modifica.

    1. Fare clic su Aggiungi clausola where.

    2. Nella colonna Clausola Where , immettere YTD_SALES > 1000.

    3. Fare clic su Applica e ritorna.

  4. Fare clic sulla scheda Output .

  5. Espandere la sezione Colonne e fare clic su Modifica.

    1. Selezionare tutte le colonne e deselezionare le seguenti colonne elencate di seguito che verranno conservate per questa esercitazione.

      • ID_CLIENTE
      • NOMECLIENTE
      • CODICE_CONTEGGIO
      • INDIRIZZO_EMAIL
      • NUMERO_TELEFONO
      • YTD_SALES
      • ID_SALESREP
    2. Fare clic sull'icona del cestino per eliminare le restanti colonne selezionate.

    3. Per la colonna CUSTNAME , rinominarla in CUSTOMERNAME. Questa modifica si propagherà fino ai nodi che seguono il nodo Filtro .

    4. Fare clic su Applica e ritorna per tornare alla finestra Proprietà.

  6. Fare clic sul pulsante Salva per salvare le modifiche al nodo Filtro .

Nodo 3: modifica del nodo Ordina

  1. Fare doppio clic su Ordina .

  2. Nel pannello Proprietà , rinominare il testo Sort_1 in Sort YTD Sales per rinominare il nodo di ordinamento.

  3. Espandere la sezione Proprietà .

  4. In Ordinamento chiavi, fare clic su Modifica.

    1. Fare clic su Aggiungi chiave.

    2. Dal menu a discesa Chiave , selezionare YTD_SALES.

    3. Per Ordinamento, selezionare Decrescente.

    4. Fare clic su Applica per ritornare all'elenco di chiavi di ordinamento.

    5. Fare clic su Applica e ritorna per tornare alla finestra Proprietà.

  5. Fare clic sulla scheda Input ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .

  6. Fare clic sulla scheda Output ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .

  7. Fare clic su Salva per salvare le modifiche al nodo Ordina .

Nodo 4: modifica dell'ultimo nodo del browser Asset

  1. Fare doppio clic sul nodo Customers.csv .

  2. Nel pannello Proprietà , rinominare il nodo in Customer filtered table per rinominarlo.

  3. Espandere la sezione Proprietà e selezionare la check box Crea asset di dati.

  4. Per il campo Nome asset di dati , immettere Customers filterede fare clic su Salva.

  5. Fare clic sulla scheda Input ed espandere la sezione Colonne per verificare che la modifica del nome della colonna CUSTOMERNAME sia stata propagata dal nodo Filtro .

  6. Fare clic su Salva per salvare le modifiche al nodo Tabella filtrata clienti .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra il flusso DataStage finale.

La seguente immagine mostra il flusso DataStage finale.




Attività 5: eseguire il flusso DataStage e visualizzare l'asset

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 06:36.

Ora è possibile eseguire il flusso. Attenersi alla seguente procedura per eseguire il flusso e visualizzare l'asset trasformato nel progetto:

  1. Fare clic su Salva.

  2. Fare clic su Compila.

  3. Fare clic su Esegui.

  4. (Facoltativo) Fare clic sul link Log per visualizzare i dettagli dell'esecuzione.

  5. Fare doppio clic sull'ultimo nodo Tabella filtrata clienti .

  6. Espandere la sezione Proprietà .

  7. Scorrere verso il basso e fare clic su Anteprima dati. I dati sono stati filtrati e ordinati correttamente.

    1. Fare clic su Grafico .

    2. Per Colonne da visualizzare, selezionare YTD_SALES.

    3. Per Tipo grafico, fare clic su Grafico Q-Q.

    4. Fare clic su Chiudi.

  8. Poiché si imposta il flusso per creare un asset di dati nel progetto, fare clic sul nome del progetto nella traccia di navigazione per tornare al progetto.

  9. Nella scheda Asset , aprire l'asset Clienti filtrati .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra l'asset di dati filtrato dei clienti.

La seguente immagine mostra l'asset di dati filtrato dei clienti.



Passi successivi

Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:

Ulteriori risorse

Argomento principale: Esercitazioni introduttive

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni