0 / 0
Torna alla versione inglese della documentazione
Avvio rapido: perfezionare i dati

Avvio rapido: perfezionare i dati

È possibile risparmiare tempo nella preparazione dei dati, trasformando rapidamente grandi quantità di dati grezzi in informazioni di alta qualità e utilizzabili, pronte per l'analytics. Leggere le informazioni sullo strumento Data Refinery , quindi guardare un video e fare un'esercitazione che è adatto per i principianti e non richiede codifica.

Servizio richiesto
Watson Studio o IBM Knowledge Catalog

Il flusso di lavoro di base include le seguenti attività:

  1. Creare un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
  2. Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
  3. Aprire i dati in Data Refinery.
  4. Eseguire le operazioni utilizzando operazioni per perfezionare i dati.
  5. Creare ed eseguire un lavoro per trasformare i dati.

Informazioni su Data Refinery

Utilizzare Data Refinery per ripulire e modellare i dati tabellari con un editor di flusso grafico. È anche possibile utilizzare modelli interattivi per codificare operazioni, funzioni e operatori logici. Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si formano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne ed eseguendo le operazioni.

Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono prospettive e informazioni dettagliate sui dati. Quando viene salvato, il dataset perfezionato in genere viene caricato in un'ubicazione diversa da cui viene letto. In questo modo, i dati di origine non vengono interessati dal processo di perfezionamento.

Ulteriori informazioni sul perfezionamento dei dati

Guarda un video sul perfezionamento dei dati

Guarda il video Guarda questo video per scoprire come perfezionare i dati.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

  • Trascrizione del video
    Ora Trascrizione
    00:00 Questo video mostra come modellare i dati grezzi utilizzando Data Refinery.
    00:05 Per iniziare a perfezionare i dati da un progetto, visualizzare l'asset di dati e aprirlo in Data Refinery.
    00:14 Il riquadro "Informazioni" contiene il nome per il flusso di dati e per l'output del flusso di dati, una volta terminato il perfezionamento dei dati.
    00:23 La scheda "Dati" mostra una serie di esempio di righe e colonne nel dataset.
    00:29 Per migliorare le prestazioni, non vedrai tutte le righe nello shaper.
    00:33 Ma siate certi che quando avrete finito di perfezionare i dati, il flusso di dati verrà eseguito sull'intero dataset.
    00:41 La scheda "Profilo" mostra le statistiche di frequenza e riepilogo per ciascuna delle colonne.
    00:49 La scheda "Visualizzazioni" fornisce le visualizzazioni dei dati per le colonne a cui si è interessati.
    00:57 I grafici suggeriti hanno un punto blu accanto alle loro icone.
    01:03 Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.
    01:12 Ora, facciamo qualche lite di dati.
    01:17 Iniziare con un'operazione semplice, come l'ordine sulla colonna specificata - in questo caso, la colonna "Anno".
    01:27 Diciamo che vuoi concentrarti sui ritardi solo per una compagnia aerea specifica in modo da poter filtrare i dati per mostrare solo quelle righe in cui il vettore unico è "United Airlines".
    01:47 Sarebbe utile vedere il ritardo totale.
    01:50 È possibile farlo creando una nuova colonna per combinare i ritardi di arrivo e partenza.
    01:56 Notare che il tipo di colonna viene dedotto come numero intero.
    02:00 Selezionare la colonna Ritardo di partenza e utilizzare l'operazione "Calcola".
    02:09 In questo caso, aggiungere la colonna di ritardo di arrivo alla colonna selezionata e creare una nuova colonna, denominata "TotalDelay".
    02:23 È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale.
    02:31 Quando si applica l'operazione, la nuova colonna viene visualizzata accanto alla colonna del ritardo di partenza.
    02:38 Se si commette un errore, o semplicemente si decide di apportare una modifica, basta accedere al pannello "Passi" ed eliminare quel passo.
    02:46 Questa operazione annullerà quella particolare operazione.
    02:50 È anche possibile utilizzare i pulsanti di ripristino e annullamento.
    02:56 Successivamente, si desidera concentrarsi sulla colonna "TotalDelay" in modo da poter utilizzare l'operazione di "selezione" per spostare la colonna all'inizio.
    03:09 Questo comando dispone la colonna "TotalDelay" come prima nell'elenco e tutto il resto viene dopo di essa.
    03:21 Successivamente, utilizzare l'operazione "group_by" per dividere i dati in gruppi per anno, mese e giorno.
    03:32 Quindi, quando si seleziona la colonna "TotalDelay", verranno visualizzate le colonne "Anno", "Mese", "DayofMonth" e "TotalDelay".
    03:44 Infine, si desidera trovare la media della colonna "TotalDelay".
    03:48 Quando si espande il menu "Operazioni", nella sezione "Organizza", si trova l'operazione "Aggregato", che comprende la funzione "Media".
    04:08 Ora è disponibile una nuova colonna, denominata "AverageDelay", che rappresenta la media per il ritardo totale.
    04:17 Ora per eseguire il flusso di dati, salvare e creare il job.
    04:24 Fornire un nome per il lavoro e continuare con il pannello successivo.
    04:28 Il passo "Configura" consente di esaminare l'input e l'output dell'esecuzione del job.
    04:36 Selezionare l'ambiente utilizzato per eseguire il lavoro.
    04:41 La pianificazione di un lavoro è facoltativa, ma è possibile impostare una data e ripetere il lavoro, se si desidera.
    04:51 E si può scegliere di ricevere notifiche per questo lavoro.
    04:56 Tutto sembra buono, quindi creare ed eseguire il lavoro.
    05:00 Questa operazione potrebbe richiedere diversi minuti, poiché il flusso di dati verrà eseguito sull'intero dataset.
    05:06 Nel frattempo, è possibile visualizzare lo stato.
    05:12 Quando l'esecuzione è in competizione, è possibile tornare alla scheda "Asset" del progetto.
    05:20 Aprire il flusso Data Refinery per perfezionare ulteriormente i dati.
    05:28 Ad esempio, è possibile ordinare la colonna "AverageDelay" in ordine decrescente.
    05:36 Ora, modificare le impostazioni del flusso.
    05:39 Nel pannello "Generale", è possibile modificare il nome del flusso Data Refinery .
    05:46 Nel pannello "Serie di dati di origine", è possibile modificare l'esempio o il formato per il dataset di origine o sostituire l'origine dati.
    05:56 Nel riquadro "Serie di dati di destinazione", è possibile specificare un'ubicazione alternativa, ad esempio un'origine dati esterna.
    06:06 È inoltre possibile modificare le proprietà per la destinazione, come la modalità di scrittura, il formato file e modificare il nome asset del dataset.
    06:21 Ora, eseguire nuovamente il flusso di dati; ma questa volta, salvare e visualizzare i job.
    06:28 Selezionare il lavoro che si desidera visualizzare dall'elenco ed eseguire il lavoro.
    06:41 Al termine dell'esecuzione, tornare al progetto.
    06:46 E nella scheda "Asset", vedrai tutti e tre i file:
    06:51 L'originale.
    06:54 Il primo dataset rifinito, che mostra "AverageDelay" non ordinato.
    07:02 E il secondo dataset, che mostra la colonna "AverageDelay" ordinata in ordine decrescente.
    07:11 E di nuovo nella scheda "Asset", c'è il flusso Data Refinery .
    07:19 Trova ulteriori video nella documentazione Cloud Pak for Data as a Service .

Prova un'esercitazione per perfezionare i dati

In questa esercitazione, verranno completate le seguenti attività:

Il completamento di questa esercitazione richiede circa 30 minuti.





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulle date / ore per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare il picture-in-picture e i capitoli

Ottieni aiuto nella community

Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàCloud Pak for Data.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Attività 1: apertura di un progetto

È necessario un progetto per memorizzare i dati e il flusso Data Refinery . È possibile utilizzare un progetto esistente o creare un progetto.

  1. Dal Menu di navigazione Menu di navigazione, scegliere Progetti> Visualizza tutti i progetti

  2. Aprire un progetto esistente. Se si desidera utilizzare un nuovo progetto:

    1. Fare clic su Nuovo progetto.

    2. Selezionare Crea un progetto vuoto.

    3. Immettere un nome e una descrizione facoltativa per il progetto.

    4. Scegliere un' istanza del servizio di archiviazione oggetti esistente o crearne una nuova.

    5. Fare clic su Crea.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra un nuovo progetto vuoto.

La seguente immagine mostra un nuovo progetto vuoto.

Per ulteriori informazioni o per guardare un video, consultare Creazione di un progetto.




Attività 2: aprire il dataset in Data Refinery

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 00:00.

Seguire questi passi per aggiungere un asset di dati al progetto e creare un flusso Data Refinery . Il dataset che verrà utilizzato in questa esercitazione è disponibile nell'hub di risorse.

  1. Accedere ai dati della linea aerea nell'hub della risorsa.

  2. Fare clic su Aggiungi al progetto.

  3. Selezionare il progetto dall'elenco e fare clic su Aggiungi.

  4. Una volta aggiunto il dataset, fare clic su Visualizza progetto.

    Per ulteriori informazioni sull'aggiunta di un asset di dati dall'hub di risorse a un progetto, fare riferimento a Caricamento e accesso ai dati in un notebook.

  5. Nella scheda Asset , fare clic sull'asset di dati airline-data.csv per visualizzare l'anteprima del contenuto.

  6. Fare clic su Prepara dati per aprire un esempio del file in Data Refinerye attendere che Data Refinery legga ed elabori un esempio dei dati.

  7. Chiudere i pannelli Informazioni e Passi .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.

La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.




Attività 3: esaminare i dati con Profilo e visualizzazioni

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 00:00.

Il contenuto di un asset viene automaticamente creato un profilo e classificato in base ai valori in tali colonne. Attenersi a questa procedura per utilizzare le schede Profilo e Visualizzazioni per esplorare i dati.

Suggerimento: utilizzare le pagine Profilo e Visualizzazioni per visualizzare le modifiche nei dati man mano che si perfezionano.
  1. Fare clic sulla scheda Profilo per esaminare la distribuzione della frequenza dei dati in modo da trovare i valori anomali.

    1. Scorrere le colonne per visualizzare le statistiche per ciascuna colonna. Le statistiche mostrano l'intervallo interquartile, minimo, massimo, mediana e deviazione standard in ogni colonna.

    2. Passare con il mouse su una barra per visualizzare ulteriori dettagli.

    La seguente immagine mostra la pagina Profilo:
    Scheda Profilo

  2. Fare clic sulla scheda Visualizzazioni .

    1. Selezionare la colonna UniqueCarrier da visualizzare. I grafici suggeriti hanno un punto blu accanto alle icone.

    2. Fare clic su Torta . Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Visualizzazioni. È ora possibile perfezionare i dati.

Scheda Visualizzazioni




Attività 4: Restringere i dati

Operazioni Data Refinery

Data Refinery utilizza due tipi di operazioni per perfezionare i dati, Operazioni GUI e operazioni di codifica. In questa esercitazione verranno utilizzati entrambi i tipi di operazioni.

  • Le operazioni GUI possono essere costituite da più fasi. Selezionare un'operazione da Nuovo passo. Un sottoinsieme delle operazioni GUI è disponibile anche dal menu Overflow di ciascuna colonna (menu di overflow).

    Quando si apre un file in Data Refinery, l'operazione Converti tipo di colonna viene applicata automaticamente come primo passo per convertire i tipi di dati non stringa in tipi di dati dedotti (ad esempio, in Integer, Date, Boolean e così via). È possibile annullare o modificare questo passo.

  • Le Operazioni di codifica sono modelli interattivi per operazioni di codifica, funzioni e operatori logici. La maggior parte delle operazioni dispone di un aiuto interattivo. Fare clic sul nome operazione nella casella di testo della riga comandi per visualizzare le operazioni di codifica e le relative opzioni di sintassi.

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 01:16.

Il perfezionamento dei dati è una serie di passi per creare un flusso Data Refinery. Durante l'esecuzione di questa attività, visualizzare il pannello Passi per seguire l'avanzamento. È possibile selezionare un passo per eliminarlo o modificarlo. Se si commette un errore, è anche possibile fare clic sull'icona Annulla Annulla. Attenersi alla seguente procedura per perfezionare i dati:

  1. Tornare alla scheda Dati .

  2. Selezionare la colonna Anno . Fare clic sul menu Overflow (Menu di overflow) e scegliere Ordinamento decrescente.

  3. Fare clic su Passi per visualizzare il nuovo passo nel pannello Passi .

  4. Concentrati sui ritardi per una specifica compagnia aerea. Questo tutorial utilizza United Airlines (UA), ma puoi scegliere qualsiasi compagnia aerea.

    1. Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Filtro.

    2. Scegliere la colonna UniqueCarrier .

    3. Per Operatore, scegliere È uguale a.

    4. Per Valore, immettere la stringa per la compagnia aerea per cui si desidera visualizzare le informazioni sul ritardo. Ad esempio, UA.
      Operazione filtro

    5. Fai clic su Applica. Scorrere la colonna UniqueCarrier per visualizzare i risultati.

  5. Creare una nuova colonna che aggiunga gli orari di ritardo di arrivo e partenza.

    1. Selezionare la colonna DepDelay .

    2. Notare che l'operazione Converti tipo di colonna è stata applicata automaticamente come primo passo per convertire i tipi di dati String in tutte le colonne i cui valori sono numeri in tipi di dati Integer.

    3. Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Calcola.

    4. Per Operatore, scegliere Aggiunta.

    5. Selezionare Colonna, quindi scegliere la colonna ArrDelay .

    6. Selezionare Crea nuova colonna per i risultati.

    7. Per Nuovo nome colonna, immettere TotalDelay.
      Calcola operazione

    8. È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. In questo caso, selezionare Accanto alla colonna originale.

    9. Fai clic su Applica. Viene aggiunta la nuova colonna, TotalDelay.

  6. Spostare la nuova colonna TotalDelay all'inizio del dataset:

    1. Nella casella di testo della riga comandi, scegliere l'operazione select .

    2. Fai clic sulla parola selecte scegli select (`<column>`, all ()).

    3. Fare clic su `<column>`e scegliere la colonna TotalDelay . Una volta terminato, il comando dovrebbe essere simile al seguente:

      select(`TotalDelay`, everything())
      
    4. Fai clic su Applica. La colonna TotalDelay è ora la prima colonna.

  7. Ridurre i dati a quattro colonne: Anno, Mese, DayofMonthe TotalDelay. Utilizzare l'operazione di codifica group_by per dividere le colonne in gruppi di anno, mese e giorno.

    1. Nella casella di testo della riga comandi, scegliere l'operazione group_by .

    2. Fare clic su <column>e scegliere la colonna Anno .

    3. Prima della parentesi di chiusura, immettere: ,Month,DayofMonth. Una volta terminato, il comando dovrebbe essere simile al seguente:

      group_by(`Year`,Month,DayofMonth)
      
    4. Fai clic su Applica.

    5. Utilizzare l'operazione di codifica select per la colonna TotalDelay . Nella casella di testo della riga comandi, selezionare l'operazione select .
      Fare clic su <column>e scegliere la colonna TotalDelay . Il comando dovrebbe essere simile al seguente:

      select(`TotalDelay`)
      
    6. Fai clic su Applica. I dati di forma ora sono costituiti dalle colonne Anno, Mese, DayofMonthe TotalDelay .

      La seguente immagine mostra le prime quattro righe dei dati.
      Le prime quattro righe del flusso Data Refinery con le colonne Anno, Mese, DayofMonthe TotalDelay

  8. Mostrare la media dei valori della colonna TotalDelay e creare una nuova colonna AverageDelay :

    1. Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Aggregato.

    2. Per Colonna, selezionare TotalDelay.

    3. Per Operatore, selezionare Media.

    4. Per Nome della colonna aggregata, immettere AverageDelay.
      Operazione di aggregazione

    5. Fai clic su Applica.

      La nuova colonna AverageDelay è la media di tutti i tempi di ritardo.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra le prime quattro righe dei dati

La seguente immagine mostra le prime quattro righe dei dati.




Attività 5: eseguire un lavoro per il flusso Data Refinery

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 04:00.

Quando si esegue un job per il flusso Data Refinery , i passi vengono eseguiti sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. L'output del flusso Data Refinery viene aggiunto agli asset di dati nel progetto. Seguire questa procedura per eseguire un job per creare il dataset rifinito.

  1. Dalla barra degli strumenti Data Refinery , fare clic su Lavori e selezionare Salva e crea un lavoro
    . Salva e crea un lavoro

  2. Immettere un nome e una descrizione per il lavoro e fare clic su Avanti.

  3. Selezionare un ambiente di runtime e fare clic su Avanti.

  4. (Facoltativo) Fare clic sul pulsante di attivazione / disattivazione per pianificare un'esecuzione. Specificare la data, l'ora e se si desidera che il job venga ripetuto e fare clic su Avanti.

  5. (Facoltativo) Attivare le notifiche per questo lavoro e fare clic su Avanti.

  6. Esaminare i dettagli e fare clic su Crea ed esegui per eseguire immediatamente il lavoro.
    Crea lavoro

  7. Una volta creato il lavoro, fare clic sul collegamento Dettagli lavoro nella notifica per visualizzare il lavoro nel progetto. In alternativa, è possibile passare alla scheda Lavori nel progetto e fare clic sul nome del job per aprirlo.

  8. Quando lo Stato per il job è Completato, utilizzare il percorso di navigazione del progetto per tornare alla scheda Asset nel progetto.

  9. Fare clic sulla sezione Dati> Asset dati per vedere l'output del flusso Data Refinery , airline-data_shaped.csv.

  10. Fare clic sulla sezione Flussi> Data Refinery flussi per vedere il flusso Data Refinery , airline-data.csv_flow.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset a forma di.

La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset modellato.




Attività 6: creare un altro asset di dati dal flusso Data Refinery

video dell'esercitazione di anteprima Per visualizzare in anteprima questa attività, guardare il video a partire dalle 05:26.

Seguire questa procedura per perfezionare ulteriormente il dataset modificando il flusso Data Refinery :

  1. Fare clic su airline-data.csv_flow per aprire il flusso in Data Refinery.

  2. Ordinare la colonna AverageDelay in ordine decrescente.

    1. Selezionare la colonna AverageDelay .

    2. Fare clic sul menu Overflow (Menu di overflow), quindi selezionare Ordinamento decrescente.

  3. Fare clic sull'icona Impostazioni flusso Impostazioni del flusso.

  4. Fare clic sul pannello Serie di dati di destinazione .

  5. Fare clic su Modifica proprietà.

    1. Nella casella di dialogo Formatta proprietà di destinazione , modificare il nome dell'asset di dati in airline-data_sorted_shaped.csv.
      nome file di output modificato

    2. Fare clic su Salva per ritornare alle impostazioni del flusso.

  6. Fare clic su Applica per salvare le impostazioni.

  7. Dalla barra degli strumenti Data Refinery , fare clic sull'icona Lavori e selezionare Salva e visualizza lavori.
    Salva e visualizza i lavori

  8. Selezionare il lavoro per i dati della compagnia aerea e fare clic su Visualizza.

  9. Dalla barra degli strumenti Finestra Lavoro , fare clic su Esegui lavoro .
    esegui lavori

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra i dettagli del lavoro completato

La seguente immagine mostra i dettagli del lavoro completato.




Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto

video dell'esercitazione di anteprima Per visualizzare in anteprima questa attività, guardare il video a partire dalle 06:40.

Ora seguire questi passi per visualizzare i tre asset di dati, l'originale, il primo set di dati rifinito e il secondo set di dati rifinito:

  1. Una volta completato il lavoro, andare alla pagina del progetto.

  2. Fare clic sulla scheda Asset.

  3. Nella sezione Asset di dati , verrà visualizzato il dataset originale caricato e l'output dei due flussi Data Refinery .

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. Fare clic sull'asset di dati airline - data_csv_forme per visualizzare il ritardo medio non ordinato. Tornare alla scheda Asset .

  5. Fare clic sull'asset di dati airline-data_sorted_shaped.csv per visualizzare il ritardo medio in ordine decrescente. Tornare alla scheda Asset .

  6. Fare clic sulla sezione Flussi> Data Refinery flussi mostra il flusso Data Refinery : airline-data.csv_flow.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati

La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati.



Passi successivi

Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:

Ulteriori risorse

Argomento principale: Esercitazioni introduttive

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni