È possibile risparmiare tempo nella preparazione dei dati, trasformando rapidamente grandi quantità di dati grezzi in informazioni di alta qualità e utilizzabili, pronte per l'analytics. Leggere le informazioni sullo strumento Data Refinery , quindi guardare un video e fare un'esercitazione che è adatto per i principianti e non richiede codifica.
- Servizio richiesto
- watsonx.ai Studio o IBM Knowledge Catalog
Il flusso di lavoro di base include le seguenti attività:
- Creare un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Aprire i dati in Data Refinery.
- Eseguire le operazioni utilizzando operazioni per perfezionare i dati.
- Creare ed eseguire un lavoro per trasformare i dati.
Informazioni su Data Refinery
Utilizzare Data Refinery per ripulire e modellare i dati tabellari con un editor di flusso grafico. È anche possibile utilizzare modelli interattivi per codificare operazioni, funzioni e operatori logici. Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si formano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne ed eseguendo le operazioni.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono prospettive e informazioni dettagliate sui dati. Quando viene salvato, il dataset perfezionato in genere viene caricato in un'ubicazione diversa da cui viene letto. In questo modo, i dati di origine non vengono interessati dal processo di perfezionamento.
Guarda un video sul perfezionamento dei dati
Guarda questo video per scoprire come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video Ora Trascrizione 00:00 Questo video mostra come modellare i dati grezzi utilizzando Data Refinery. 00:05 Per iniziare a perfezionare i dati da un progetto, visualizzare l'asset di dati e aprirlo in Data Refinery. 00:14 Il riquadro "Informazioni" contiene il nome per il flusso di dati e per l'output del flusso di dati, una volta terminato il perfezionamento dei dati. 00:23 La scheda "Dati" mostra una serie di esempio di righe e colonne nel dataset. 00:29 Per migliorare le prestazioni, non vedrai tutte le righe nello shaper. 00:33 Ma siate certi che quando avrete finito di perfezionare i dati, il flusso di dati verrà eseguito sull'intero dataset. 00:41 La scheda "Profilo" mostra le statistiche di frequenza e riepilogo per ciascuna delle colonne. 00:49 La scheda "Visualizzazioni" fornisce le visualizzazioni dei dati per le colonne a cui si è interessati. 00:57 I grafici suggeriti hanno un punto blu accanto alle loro icone. 01:03 Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati. 01:12 Ora, facciamo qualche lite di dati. 01:17 Iniziare con un'operazione semplice, come l'ordine sulla colonna specificata - in questo caso, la colonna "Anno". 01:27 Diciamo che vuoi concentrarti sui ritardi solo per una compagnia aerea specifica in modo da poter filtrare i dati per mostrare solo quelle righe in cui il vettore unico è "United Airlines". 01:47 Sarebbe utile vedere il ritardo totale. 01:50 È possibile farlo creando una nuova colonna per combinare i ritardi di arrivo e partenza. 01:56 Notare che il tipo di colonna viene dedotto come numero intero. 02:00 Selezionare la colonna Ritardo di partenza e utilizzare l'operazione "Calcola". 02:09 In questo caso, si aggiungerà la colonna del ritardo di arrivo alla colonna selezionata e si creerà una nuova colonna, chiamata "TotalDelay". 02:23 È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. 02:31 Quando si applica l'operazione, la nuova colonna viene visualizzata accanto alla colonna del ritardo di partenza. 02:38 Se si commette un errore, o semplicemente si decide di apportare una modifica, basta accedere al pannello "Passi" ed eliminare quel passo. 02:46 Questa operazione annullerà quella particolare operazione. 02:50 È anche possibile utilizzare i pulsanti di ripristino e annullamento. 02:56 Successivamente, si desidera concentrarsi sulla colonna "TotalDelay", in modo da poter utilizzare l'operazione "select" per spostare la colonna all'inizio. 03:09 Questo comando dispone la colonna "TotalDelay" come prima dell'elenco e tutto il resto viene dopo. 03:21 Successivamente, utilizzare l'operazione "group_by" per dividere i dati in gruppi per anno, mese e giorno. 03:32 Quindi, quando si seleziona la colonna "TotalDelay", si vedranno le colonne "Year", "Month", "DayofMonth", e "TotalDelay". 03:44 Infine, si vuole trovare la media della colonna "TotalDelay". 03:48 Quando si espande il menu "Operazioni", nella sezione "Organizza", si trova l'operazione "Aggregato", che comprende la funzione "Media". 04:08 Ora abbiamo una nuova colonna, chiamata "AverageDelay", che rappresenta la media del ritardo totale. 04:17 Ora per eseguire il flusso di dati, salvare e creare il job. 04:24 Fornire un nome per il lavoro e continuare con il pannello successivo. 04:28 Il passo "Configura" consente di esaminare l'input e l'output dell'esecuzione del job. 04:36 Selezionare l'ambiente utilizzato per eseguire il lavoro. 04:41 La pianificazione di un lavoro è facoltativa, ma è possibile impostare una data e ripetere il lavoro, se si desidera. 04:51 E si può scegliere di ricevere notifiche per questo lavoro. 04:56 Tutto sembra buono, quindi creare ed eseguire il lavoro. 05:00 Questa operazione potrebbe richiedere diversi minuti, poiché il flusso di dati verrà eseguito sull'intero dataset. 05:06 Nel frattempo, è possibile visualizzare lo stato. 05:12 Quando l'esecuzione è in competizione, è possibile tornare alla scheda "Asset" del progetto. 05:20 Aprire il flusso Data Refinery per perfezionare ulteriormente i dati. 05:28 Ad esempio, è possibile ordinare la colonna "AverageDelay" in ordine decrescente. 05:36 Ora, modificare le impostazioni del flusso. 05:39 Nel pannello "Generale", è possibile modificare il nome del flusso Data Refinery . 05:46 Nel pannello "Serie di dati di origine", è possibile modificare l'esempio o il formato per il dataset di origine o sostituire l'origine dati. 05:56 Nel riquadro "Serie di dati di destinazione", è possibile specificare un'ubicazione alternativa, ad esempio un'origine dati esterna. 06:06 È inoltre possibile modificare le proprietà per la destinazione, come la modalità di scrittura, il formato file e modificare il nome asset del dataset. 06:21 Ora, eseguire nuovamente il flusso di dati; ma questa volta, salvare e visualizzare i job. 06:28 Selezionare il lavoro che si desidera visualizzare dall'elenco ed eseguire il lavoro. 06:41 Al termine dell'esecuzione, tornare al progetto. 06:46 E nella scheda "Asset", vedrai tutti e tre i file: 06:51 L'originale. 06:54 Il primo set di dati raffinato, che mostra il "AverageDelay" non ordinato. 07:02 E il secondo set di dati, che mostra la colonna "AverageDelay" ordinata in modo decrescente. 07:11 E di nuovo nella scheda "Asset", c'è il flusso Data Refinery . 07:19 Trova ulteriori video nella documentazione Cloud Pak for Data as a Service .
Prova un'esercitazione per perfezionare i dati
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: aprire un progetto.
- Attività 2: aprire il dataset in Data Refinery.
- Attività 3: esaminare i dati con il profilo e le visualizzazioni
- Attività 4: Restringere i dati
- Attività 5: eseguire un lavoro per il flusso Data Refinery .
- Attività 6: creare un altro asset di dati dal flusso Data Refinery .
- Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto.
Il completamento di questa esercitazione richiede circa 30 minuti.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
È necessario un progetto per memorizzare i dati e il flusso Data Refinery . È possibile utilizzare un progetto esistente o creare un progetto.
Dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti
Aprire un progetto esistente. Se si desidera utilizzare un nuovo progetto:
Fare clic su Nuovo progetto.
Selezionare Crea un progetto vuoto.
Immettere un nome e una descrizione facoltativa per il progetto.
Scegliere un'istanza del servizio di archiviazione oggetti esistente o crearne una nuova.
Fare clic su Crea.
Controllare i progressi
La seguente immagine mostra un nuovo progetto vuoto.
Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.
Attività 2: aprire il dataset in Data Refinery
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:05.
Seguire questi passi per aggiungere un asset di dati al progetto e creare un flusso Data Refinery . Il dataset che verrà utilizzato in questa esercitazione è disponibile nell'hub di risorse.
Accedere al " Dati della compagnia aerea nell'hub delle risorse.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di un asset di dati dall'hub di risorse a un progetto, fare riferimento a Caricamento e accesso ai dati in un notebook.
Nella scheda Asset , fare clic sull'asset di dati airline-data.csv per visualizzare l'anteprima del contenuto.
Fare clic su Prepara dati per aprire un esempio del file in Data Refinerye attendere che Data Refinery legga ed elabori un esempio dei dati.
Chiudere i pannelli Informazioni e Passi .
Controllare i progressi
La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.
Attività 3: esaminare i dati con Profilo e visualizzazioni
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:47.
Il contenuto di un asset viene automaticamente creato un profilo e classificato in base ai valori in tali colonne. Attenersi a questa procedura per utilizzare le schede Profilo e Visualizzazioni per esplorare i dati.
Fare clic sulla scheda Profilo per esaminare la distribuzione di frequenza dei dati e individuare i valori anomali.
Scorrere le colonne per visualizzare le statistiche per ciascuna colonna. Le statistiche mostrano l'intervallo interquartile, minimo, massimo, mediana e deviazione standard in ogni colonna.
Passare con il mouse su una barra per visualizzare ulteriori dettagli.
L'immagine seguente mostra la scheda Profilo:
'Fare clic sulla scheda Visualizzazioni .
Selezionare la colonna UniqueCarrier da visualizzare. I grafici suggeriti hanno un punto blu accanto alle loro icone.
Fare clic su Torta . Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.
Controllare i progressi
La seguente immagine mostra la scheda Visualizzazioni. È ora possibile perfezionare i dati.
Attività 4: Restringere i dati
Operazioni Data Refinery
Data Refinery utilizza due tipi di operazioni per perfezionare i dati, Operazioni GUI e operazioni di codifica. In questa esercitazione verranno utilizzati entrambi i tipi di operazioni.
Le operazioni della GUI possono essere costituite da più fasi. Selezionare un'operazione da Nuovo passo. Un sottoinsieme delle operazioni dell'interfaccia grafica è disponibile anche nel menu Overflow di ciascuna colonna ().
Quando si apre un file in Data Refinery, l'operazione Converti tipo di colonna viene applicata automaticamente come primo passo per convertire i tipi di dati non stringa in tipi di dati dedotti (ad esempio, in Integer, Date, Boolean e così via). È possibile annullare o modificare questo passo.
Le operazioni di codifica sono modelli interattivi per la codifica di operazioni, funzioni e operatori logici. La maggior parte delle operazioni dispone di un aiuto interattivo. Fare clic sul nome operazione nella casella di testo della riga comandi per visualizzare le operazioni di codifica e le relative opzioni di sintassi.
Per vedere un'anteprima di questo compito, guardate il video a partire da 01:16.
Il perfezionamento dei dati è una serie di passi per creare un flusso Data Refinery. Durante l'esecuzione di questa attività, visualizzare il pannello Passi per seguire l'avanzamento. È possibile selezionare un passo per eliminarlo o modificarlo. Se si commette un errore, si può anche fare clic sull'icona Annulla '. Attenersi alla seguente procedura per perfezionare i dati:
Tornare alla scheda Dati .
Selezionare la colonna Anno . Fare clic sul menu Overflow () e scegliere Ordinamento discendente.
Fare clic su Passi per visualizzare il nuovo passo nel pannello Passi .
Concentrati sui ritardi per una specifica compagnia aerea. Questo tutorial utilizza United Airlines (UA), ma puoi scegliere qualsiasi compagnia aerea.
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Filtro.
Scegliere la colonna UniqueCarrier .
Per Operatore, scegliere È uguale a.
Per Valore, immettere la stringa per la compagnia aerea per cui si desidera visualizzare le informazioni sul ritardo. Ad esempio, '
UA
.
'Fai clic su Applica. Scorrere la colonna UniqueCarrier per visualizzare i risultati.
Creare una nuova colonna che aggiunga gli orari di ritardo di arrivo e partenza.
Selezionare la colonna DepDelay .
Notare che l'operazione Converti tipo di colonna è stata applicata automaticamente come primo passo per convertire i tipi di dati String in tutte le colonne i cui valori sono numeri in tipi di dati Integer.
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Calcola.
Per Operatore, scegliere Aggiunta.
Selezionare Colonna, quindi scegliere la colonna ArrDelay .
Selezionare Crea nuova colonna per i risultati.
Per il nome della nuova colonna, digitare '
TotalDelay
.
'È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. In questo caso, selezionare Accanto alla colonna originale.
Fai clic su Applica. Viene aggiunta la nuova colonna TotalDelay.
Spostare la nuova colonna TotalDelay all'inizio del dataset:
Nella casella di testo della riga comandi, scegliere l'operazione select .
Fai clic sulla parola selecte scegli select (`
<column>
`, all ()).Fare clic su
`<column>`
e scegliere la colonna TotalDelay . Una volta terminato, il comando dovrebbe essere simile al seguente:select(`TotalDelay`, everything())
Fai clic su Applica. La colonna TotalDelay è ora la prima colonna.
Ridurre i dati a quattro colonne: Anno, Mese, Giorno del mese e TotalDelay. Utilizzare l'operazione di codifica group_by per dividere le colonne in gruppi di anno, mese e giorno.
Nella casella di testo della riga comandi, scegliere l'operazione group_by .
Fare clic su
<column>
e scegliere la colonna Anno .Prima della parentesi di chiusura, immettere:
,Month,DayofMonth
. Una volta terminato, il comando dovrebbe essere simile al seguente:group_by(`Year`,Month,DayofMonth)
Fai clic su Applica.
Utilizzare l'operazione di codifica select per la colonna TotalDelay . Nella casella di testo della riga comandi, selezionare l'operazione select .
Fare clic su<column>
e scegliere la colonna TotalDelay . Il comando dovrebbe essere simile al seguente:select(`TotalDelay`)
Fai clic su Applica. I dati modellati sono ora costituiti dalle colonne Anno, Mese, Giorno del mese e TotalDelay.
La seguente immagine mostra le prime quattro righe dei dati.
Mostrare la media dei valori della colonna TotalDelay e creare una nuova colonna AverageDelay :
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Aggregato.
Per Colonna, selezionare TotalDelay.
Per Operatore, selezionare Media.
Per il nome della colonna aggregata, digitare '
AverageDelay
.
'Fai clic su Applica.
La nuova colonna AverageDelay è la media di tutti i tempi di ritardo.
Controllare i progressi
La seguente immagine mostra le prime quattro righe dei dati
Attività 5: eseguire un lavoro per il flusso Data Refinery
Per vedere un'anteprima di questo compito, guardate il video a partire da 04:16.
Quando si esegue un job per il flusso Data Refinery , i passi vengono eseguiti sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. L'output del flusso Data Refinery viene aggiunto agli asset di dati nel progetto. Seguire questa procedura per eseguire un job per creare il dataset rifinito.
Dalla barra degli strumenti di Data Refinery, fare clic sull'icona Lavori e selezionare Salva e crea un lavoro.
'Immettere un nome e una descrizione per il lavoro e fare clic su Avanti.
Selezionare un ambiente di runtime e fare clic su Avanti.
(Facoltativo) Fare clic sul pulsante di attivazione / disattivazione per pianificare un'esecuzione. Specificare la data, l'ora e se si desidera che il job venga ripetuto e fare clic su Avanti.
(Facoltativo) Attivare le notifiche per questo lavoro e fare clic su Avanti.
Rivedere i dettagli e fare clic su Crea ed esegui per eseguire immediatamente il lavoro.
'Una volta creato il lavoro, fare clic sul collegamento Dettagli lavoro nella notifica per visualizzare il lavoro nel progetto. In alternativa, è possibile passare alla scheda Lavori nel progetto e fare clic sul nome del job per aprirlo.
Quando lo Stato per il job è Completato, utilizzare il percorso di navigazione del progetto per tornare alla scheda Asset nel progetto.
Fare clic sulla sezione Dati> Asset dati per vedere l'output del flusso Data Refinery , airline-data_shaped.csv.
Fare clic sulla sezione Flussi> Data Refinery flussi per vedere il flusso Data Refinery , airline-data.csv_flow.
Controllare i progressi
La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset a forma di.
Attività 6: creare un altro asset di dati dal flusso Data Refinery
Per vedere l'anteprima di questo compito, guardate il video a partire da 05:26.
Seguire questa procedura per perfezionare ulteriormente il dataset modificando il flusso Data Refinery :
Fare clic su airline-data.csv_flow per aprire il flusso in Data Refinery.
Ordinare la colonna AverageDelay in ordine decrescente.
Selezionare la colonna AverageDelay .
Fare clic sul menu di overflow della colonna () e selezionare Ordina decrescente.
Fare clic sull'icona delle impostazioni del flusso '.
Fare clic sul pannello Serie di dati di destinazione .
Fare clic su Modifica proprietà.
Nella finestra di dialogo Proprietà destinazione formato, modificare il nome della risorsa dati in '
airline-data_sorted_shaped.csv
.
'Fare clic su Salva per ritornare alle impostazioni del flusso.
Fare clic su Applica per salvare le impostazioni.
Dalla barra degli strumenti di Data Refinery, fare clic sull'icona Lavori e selezionare Salva e visualizza lavori.
Selezionare il lavoro per i dati della compagnia aerea e fare clic su Visualizza.
Dalla barra degli strumenti della finestra Lavoro, fare clic sull'icona Esegui lavoro.
'
Controllare i progressi
La seguente immagine mostra i dettagli del lavoro completato
Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto
Per vedere un'anteprima di questo compito, guardate il video a partire da 06:40.
Ora seguire questi passi per visualizzare i tre asset di dati, l'originale, il primo set di dati rifinito e il secondo set di dati rifinito:
Una volta completato il lavoro, andare alla pagina del progetto.
Fare clic sulla scheda Asset.
Nella sezione Asset di dati , verrà visualizzato il dataset originale caricato e l'output dei due flussi Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Fare clic sull'asset di dati airline - data_csv_forme per visualizzare il ritardo medio non ordinato. Tornare alla scheda Asset .
Fare clic sull'asset di dati airline-data_sorted_shaped.csv per visualizzare il ritardo medio in ordine decrescente. Tornare alla scheda Asset .
Fare clic sulla sezione Flussi> Data Refinery flussi mostra il flusso Data Refinery :
airline-data.csv_flow
.
Controllare i progressi
La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati
Passi successivi
Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:
Ulteriori risorse
Visualizza altri video per Data Refinery.
Trovate set di dati di esempio per fare esperienza pratica nel raffinare i dati nell'hub delle risorse.
Provate questo tutorial aggiuntivo per Data Refinery: Raccogliere, pulire e migliorare i dati '.
Argomento principale: Esercitazioni introduttive