È possibile risparmiare tempo nella preparazione dei dati, trasformando rapidamente grandi quantità di dati grezzi in informazioni di alta qualità e utilizzabili, pronte per l'analytics. Leggere le informazioni sullo strumento Data Refinery , quindi guardare un video e fare un'esercitazione che è adatto per i principianti e non richiede codifica.
Il flusso di lavoro di base include le seguenti attività:
- Aprire il progetto sandbox. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Aprire i dati in Data Refinery.
- Eseguire le operazioni utilizzando operazioni per perfezionare i dati.
- Creare ed eseguire un lavoro per trasformare i dati.
Informazioni su Data Refinery
Utilizzare Data Refinery per ripulire e modellare i dati tabellari con un editor di flusso grafico. È anche possibile utilizzare modelli interattivi per codificare operazioni, funzioni e operatori logici. Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si formano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne ed eseguendo le operazioni.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono prospettive e informazioni dettagliate sui dati. Quando viene salvato, il dataset perfezionato in genere viene caricato in un'ubicazione diversa da cui viene letto. In questo modo, i dati di origine non vengono interessati dal processo di perfezionamento.
Guarda un video sul perfezionamento dei dati
Guarda questo video per scoprire come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Prova un'esercitazione per perfezionare i dati
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: aprire un progetto.
- Attività 2: aprire il dataset in Data Refinery.
- Attività 3: esaminare i dati con il profilo e le visualizzazioni
- Attività 4: Restringere i dati
- Attività 5: eseguire un lavoro per il flusso Data Refinery .
- Attività 6: creare un altro asset di dati dal flusso Data Refinery .
- Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto.
Il completamento di questa esercitazione richiede circa 30 minuti.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'watsonx Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
È necessario un progetto per memorizzare i dati e il flusso Data Refinery . È possibile utilizzare il progetto sandbox o creare un progetto.
Dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti
Aprire il progetto sandbox. Se si desidera utilizzare un nuovo progetto:
Fare clic su Nuovo progetto.
Selezionare Crea un progetto vuoto.
Immettere un nome e una descrizione facoltativa per il progetto.
Scegliere un'istanza del servizio di archiviazione oggetti esistente o crearne una nuova.
Fare clic su Crea.
Controllare i progressi
La seguente immagine mostra un nuovo progetto vuoto.
Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.
Attività 2: aprire il dataset in Data Refinery
Per avere un'anteprima di questa attività, guardate il video a partire da 00:05.
Seguire questi passi per aggiungere un asset di dati al progetto e creare un flusso Data Refinery . Il dataset che verrà utilizzato in questa esercitazione è disponibile nell'hub di risorse.
Accedere al " Dati della compagnia aerea nell'hub delle risorse.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di un asset di dati dall'hub di risorse a un progetto, fare riferimento a Caricamento e accesso ai dati in un notebook.
Nella scheda Asset , fare clic sull'asset di dati airline-data.csv per visualizzare l'anteprima del contenuto.
Fare clic su Prepara dati per aprire un esempio del file in Data Refinerye attendere che Data Refinery legga ed elabori un esempio dei dati.
Chiudere i pannelli Informazioni e Passi .
Controllare i progressi
La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.
Attività 3: esaminare i dati con Profilo e visualizzazioni
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:47.
Il contenuto di un asset viene automaticamente creato un profilo e classificato in base ai valori in tali colonne. Attenersi a questa procedura per utilizzare le schede Profilo e Visualizzazioni per esplorare i dati.
Fare clic sulla scheda Profilo per esaminare la distribuzione di frequenza dei dati e individuare i valori anomali.
Scorrere le colonne per visualizzare le statistiche per ciascuna colonna. Le statistiche mostrano l'intervallo interquartile, minimo, massimo, mediana e deviazione standard in ogni colonna.
Passare con il mouse su una barra per visualizzare ulteriori dettagli.
L'immagine seguente mostra la scheda Profilo:
'Fare clic sulla scheda Visualizzazioni .
Selezionare la colonna UniqueCarrier da visualizzare. I grafici suggeriti hanno un punto blu accanto alle loro icone.
Fare clic su Torta . Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.
Controllare i progressi
La seguente immagine mostra la scheda Visualizzazioni. È ora possibile perfezionare i dati.
Attività 4: Restringere i dati
Operazioni Data Refinery
Data Refinery utilizza due tipi di operazioni per perfezionare i dati, Operazioni GUI e operazioni di codifica. In questa esercitazione verranno utilizzati entrambi i tipi di operazioni.
Le operazioni della GUI possono essere costituite da più fasi. Selezionare un'operazione da Nuovo passo. Un sottoinsieme delle operazioni dell'interfaccia grafica è disponibile anche nel menu Overflow di ogni colonna ().
Quando si apre un file in Data Refinery, l'operazione Converti tipo di colonna viene applicata automaticamente come primo passo per convertire i tipi di dati non stringa in tipi di dati dedotti (ad esempio, in Integer, Date, Boolean e così via). È possibile annullare o modificare questo passo.
Le operazioni di codifica sono modelli interattivi per la codifica di operazioni, funzioni e operatori logici. La maggior parte delle operazioni dispone di un aiuto interattivo. Fare clic sul nome operazione nella casella di testo della riga comandi per visualizzare le operazioni di codifica e le relative opzioni di sintassi.
Per avere un'anteprima di questo compito, guardate il video a partire da 01:16.
Il perfezionamento dei dati è una serie di passi per creare un flusso Data Refinery. Durante l'esecuzione di questa attività, visualizzare il pannello Passi per seguire l'avanzamento. È possibile selezionare un passo per eliminarlo o modificarlo. Se si commette un errore, si può anche fare clic sull'icona Annulla '. Attenersi alla seguente procedura per perfezionare i dati:
Tornare alla scheda Dati .
Selezionare la colonna Anno . Fare clic sul menu Overflow () e scegliere Ordinamento discendente.
Fare clic su Passi per visualizzare il nuovo passo nel pannello Passi .
Concentrati sui ritardi per una specifica compagnia aerea. Questo tutorial utilizza United Airlines (UA), ma puoi scegliere qualsiasi compagnia aerea.
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Filtro.
Scegliere la colonna UniqueCarrier .
Per Operatore, scegliere È uguale a.
Per Valore, immettere la stringa per la compagnia aerea per cui si desidera visualizzare le informazioni sul ritardo. Ad esempio, '
UA
.
'Fai clic su Applica. Scorrere la colonna UniqueCarrier per visualizzare i risultati.
Creare una nuova colonna che aggiunga gli orari di ritardo di arrivo e partenza.
Selezionare la colonna DepDelay .
Notare che l'operazione Converti tipo di colonna è stata applicata automaticamente come primo passo per convertire i tipi di dati String in tutte le colonne i cui valori sono numeri in tipi di dati Integer.
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Calcola.
Per Operatore, scegliere Aggiunta.
Selezionare Colonna, quindi scegliere la colonna ArrDelay .
Selezionare Crea nuova colonna per i risultati.
Per il nome della nuova colonna, digitare '
TotalDelay
.
'È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. In questo caso, selezionare Accanto alla colonna originale.
Fai clic su Applica. Viene aggiunta la nuova colonna TotalDelay.
Spostare la nuova colonna TotalDelay all'inizio del dataset:
Nella casella di testo della riga comandi, scegliere l'operazione select .
Fai clic sulla parola selecte scegli select (`
<column>
`, all ()).Fare clic su
`<column>`
e scegliere la colonna TotalDelay . Una volta terminato, il comando dovrebbe essere simile al seguente:select(`TotalDelay`, everything())
Fai clic su Applica. La colonna TotalDelay è ora la prima colonna.
Ridurre i dati a quattro colonne: Anno, Mese, Giorno del mese e TotalDelay. Utilizzare l'operazione di codifica group_by per dividere le colonne in gruppi di anno, mese e giorno.
Nella casella di testo della riga comandi, scegliere l'operazione group_by .
Fare clic su
<column>
e scegliere la colonna Anno .Prima della parentesi di chiusura, immettere:
,Month,DayofMonth
. Una volta terminato, il comando dovrebbe essere simile al seguente:group_by(`Year`,Month,DayofMonth)
Fai clic su Applica.
Utilizzare l'operazione di codifica select per la colonna TotalDelay . Nella casella di testo della riga comandi, selezionare l'operazione select .
Fare clic su<column>
e scegliere la colonna TotalDelay . Il comando dovrebbe essere simile al seguente:select(`TotalDelay`)
Fai clic su Applica. I dati modellati sono ora costituiti dalle colonne Anno, Mese, Giorno del mese e TotalDelay.
La seguente immagine mostra le prime quattro righe dei dati.
Mostrare la media dei valori della colonna TotalDelay e creare una nuova colonna AverageDelay :
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Aggregato.
Per Colonna, selezionare TotalDelay.
Per Operatore, selezionare Media.
Per il nome della colonna aggregata, digitare '
AverageDelay
.
'Fai clic su Applica.
La nuova colonna AverageDelay è la media di tutti i tempi di ritardo.
Controllare i progressi
La seguente immagine mostra le prime quattro righe dei dati
Attività 5: eseguire un lavoro per il flusso Data Refinery
Per vedere un'anteprima di questo compito, guardate il video a partire da 04:16.
Quando si esegue un job per il flusso Data Refinery , i passi vengono eseguiti sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. L'output del flusso Data Refinery viene aggiunto agli asset di dati nel progetto. Seguire questa procedura per eseguire un job per creare il dataset rifinito.
Dalla barra degli strumenti di Data Refinery, fare clic sull'icona Lavori e selezionare Salva e crea un lavoro.
'Immettere un nome e una descrizione per il lavoro e fare clic su Avanti.
Selezionare un ambiente di runtime e fare clic su Avanti.
(Facoltativo) Fare clic sul pulsante di attivazione / disattivazione per pianificare un'esecuzione. Specificare la data, l'ora e se si desidera che il job venga ripetuto e fare clic su Avanti.
(Facoltativo) Attivare le notifiche per questo lavoro e fare clic su Avanti.
Rivedere i dettagli e fare clic su Crea ed esegui per eseguire immediatamente il lavoro.
'Una volta creato il lavoro, fare clic sul collegamento Dettagli lavoro nella notifica per visualizzare il lavoro nel progetto. In alternativa, è possibile passare alla scheda Lavori nel progetto e fare clic sul nome del job per aprirlo.
Quando lo Stato per il job è Completato, utilizzare il percorso di navigazione del progetto per tornare alla scheda Asset nel progetto.
Fare clic sulla sezione Dati> Asset dati per vedere l'output del flusso Data Refinery , airline-data_shaped.csv.
Fare clic sulla sezione Flussi> Data Refinery flussi per vedere il flusso Data Refinery , airline-data.csv_flow.
Controllare i progressi
La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset a forma di.
Attività 6: creare un altro asset di dati dal flusso Data Refinery
Per vedere l'anteprima di questo compito, guardate il video a partire da 05:26.
Seguire questa procedura per perfezionare ulteriormente il dataset modificando il flusso Data Refinery :
Fare clic su airline-data.csv_flow per aprire il flusso in Data Refinery.
Ordinare la colonna AverageDelay in ordine decrescente.
Selezionare la colonna AverageDelay .
Fare clic sul menu di overflow della colonna () e selezionare Ordina decrescente.
Fare clic sull'icona delle impostazioni del flusso '.
Fare clic sul pannello Serie di dati di destinazione .
Fare clic su Modifica proprietà.
Nella finestra di dialogo Proprietà destinazione formato, modificare il nome della risorsa dati in '
airline-data_sorted_shaped.csv
.
'Fare clic su Salva per ritornare alle impostazioni del flusso.
Fare clic su Applica per salvare le impostazioni.
Dalla barra degli strumenti di Data Refinery, fare clic sull'icona Lavori e selezionare Salva e visualizza lavori.
Selezionare il lavoro per i dati della compagnia aerea e fare clic su Visualizza.
Dalla barra degli strumenti della finestra Lavoro, fare clic sull'icona Esegui lavoro.
'
Controllare i progressi
La seguente immagine mostra i dettagli del lavoro completato
Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto
Per avere un'anteprima di questo compito, guardate il video a partire da 06:40.
Ora seguire questi passi per visualizzare i tre asset di dati, l'originale, il primo set di dati rifinito e il secondo set di dati rifinito:
Una volta completato il lavoro, andare alla pagina del progetto.
Fare clic sulla scheda Asset.
Nella sezione Asset di dati , verrà visualizzato il dataset originale caricato e l'output dei due flussi Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Fare clic sull'asset di dati airline - data_csv_forme per visualizzare il ritardo medio non ordinato. Tornare alla scheda Asset .
Fare clic sull'asset di dati airline-data_sorted_shaped.csv per visualizzare il ritardo medio in ordine decrescente. Tornare alla scheda Asset .
Fare clic sulla sezione Flussi> Data Refinery flussi mostra il flusso Data Refinery :
airline-data.csv_flow
.
Controllare i progressi
La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati
Passi successivi
Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:
Ulteriori risorse
Visualizza altri video.
Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:
note che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire modelli.
Progetti che si possono importare contenenti quaderni, set di dati, prompt e altre risorse.
Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.
I prompt che si possono usare nel Prompt Lab per richiedere un foundation model.
Modelli di fondazione che si possono utilizzare nel Prompt Lab.
Argomento principale: Esercitazioni introduttive