Avvio rapido: perfezionare i dati
È possibile risparmiare tempo nella preparazione dei dati, trasformando rapidamente grandi quantità di dati grezzi in informazioni di alta qualità e utilizzabili, pronte per l'analytics. Leggere le informazioni sullo strumento Data Refinery , quindi guardare un video e fare un'esercitazione che è adatto per i principianti e non richiede codifica.
Il flusso di lavoro di base include le seguenti attività:
- Aprire il progetto sandbox. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Aprire i dati in Data Refinery.
- Eseguire le operazioni utilizzando operazioni per perfezionare i dati.
- Creare ed eseguire un lavoro per trasformare i dati.
Informazioni su Data Refinery
Utilizzare Data Refinery per ripulire e modellare i dati tabellari con un editor di flusso grafico. È anche possibile utilizzare modelli interattivi per codificare operazioni, funzioni e operatori logici. Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si formano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne ed eseguendo le operazioni.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono prospettive e informazioni dettagliate sui dati. Quando viene salvato, il dataset perfezionato in genere viene caricato in un'ubicazione diversa da cui viene letto. In questo modo, i dati di origine non vengono interessati dal processo di perfezionamento.
Guarda un video sul perfezionamento dei dati
Guarda questo video per scoprire come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Prova un'esercitazione per perfezionare i dati
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: aprire un progetto.
- Attività 2: aprire il dataset in Data Refinery.
- Attività 3: esaminare i dati con il profilo e le visualizzazioni
- Attività 4: Restringere i dati
- Attività 5: eseguire un lavoro per il flusso Data Refinery .
- Attività 6: creare un altro asset di dati dal flusso Data Refinery .
- Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto.
Il completamento di questa esercitazione richiede circa 30 minuti.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàwatsonx.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
È necessario un progetto per memorizzare i dati e il flusso Data Refinery . È possibile utilizzare il progetto sandbox o creare un progetto.
Dal Menu di navigazione , scegliere Progetti> Visualizza tutti i progetti
Aprire il progetto sandbox. Se si desidera utilizzare un nuovo progetto:
Fare clic su Nuovo progetto.
Selezionare Crea un progetto vuoto.
Immettere un nome e una descrizione facoltativa per il progetto.
Scegliere un' istanza del servizio di archiviazione oggetti esistente o crearne una nuova.
Fare clic su Crea.
Controlla i tuoi progressi
La seguente immagine mostra un nuovo progetto vuoto.
Per ulteriori informazioni o per guardare un video, consultare Creazione di un progetto.
Attività 2: aprire il dataset in Data Refinery
Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 00:00.
Seguire questi passi per aggiungere un asset di dati al progetto e creare un flusso Data Refinery . Il dataset che verrà utilizzato in questa esercitazione è disponibile nell'hub di risorse.
Accedere ai dati della linea aerea nell'hub della risorsa.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di un asset di dati dall'hub di risorse a un progetto, fare riferimento a Caricamento e accesso ai dati in un notebook.
Nella scheda Asset , fare clic sull'asset di dati airline-data.csv per visualizzare l'anteprima del contenuto.
Fare clic su Prepara dati per aprire un esempio del file in Data Refinerye attendere che Data Refinery legga ed elabori un esempio dei dati.
Chiudere i pannelli Informazioni e Passi .
Controlla i tuoi progressi
La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.
Attività 3: esaminare i dati con Profilo e visualizzazioni
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 00:00.
Il contenuto di un asset viene automaticamente creato un profilo e classificato in base ai valori in tali colonne. Attenersi a questa procedura per utilizzare le schede Profilo e Visualizzazioni per esplorare i dati.
Fare clic sulla scheda Profilo per esaminare la distribuzione della frequenza dei dati in modo da trovare i valori anomali.
Scorrere le colonne per visualizzare le statistiche per ciascuna colonna. Le statistiche mostrano l'intervallo interquartile, minimo, massimo, mediana e deviazione standard in ogni colonna.
Passare con il mouse su una barra per visualizzare ulteriori dettagli.
La seguente immagine mostra la pagina Profilo:
Fare clic sulla scheda Visualizzazioni .
Selezionare la colonna UniqueCarrier da visualizzare. I grafici suggeriti hanno un punto blu accanto alle icone.
Fare clic su Torta . Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.
Controlla i tuoi progressi
La seguente immagine mostra la scheda Visualizzazioni. È ora possibile perfezionare i dati.
Attività 4: Restringere i dati
Operazioni Data Refinery
Data Refinery utilizza due tipi di operazioni per perfezionare i dati, Operazioni GUI e operazioni di codifica. In questa esercitazione verranno utilizzati entrambi i tipi di operazioni.
Le operazioni GUI possono essere costituite da più fasi. Selezionare un'operazione da Nuovo passo. Un sottoinsieme delle operazioni GUI è disponibile anche dal menu Overflow di ciascuna colonna ().
Quando si apre un file in Data Refinery, l'operazione Converti tipo di colonna viene applicata automaticamente come primo passo per convertire i tipi di dati non stringa in tipi di dati dedotti (ad esempio, in Integer, Date, Boolean e così via). È possibile annullare o modificare questo passo.
Le Operazioni di codifica sono modelli interattivi per operazioni di codifica, funzioni e operatori logici. La maggior parte delle operazioni dispone di un aiuto interattivo. Fare clic sul nome operazione nella casella di testo della riga comandi per visualizzare le operazioni di codifica e le relative opzioni di sintassi.
Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 01:16.
Il perfezionamento dei dati è una serie di passi per creare un flusso Data Refinery. Durante l'esecuzione di questa attività, visualizzare il pannello Passi per seguire l'avanzamento. È possibile selezionare un passo per eliminarlo o modificarlo. Se si commette un errore, è anche possibile fare clic sull'icona Annulla . Attenersi alla seguente procedura per perfezionare i dati:
Tornare alla scheda Dati .
Selezionare la colonna Anno . Fare clic sul menu Overflow () e scegliere Ordinamento decrescente.
Fare clic su Passi per visualizzare il nuovo passo nel pannello Passi .
Concentrati sui ritardi per una specifica compagnia aerea. Questo tutorial utilizza United Airlines (UA), ma puoi scegliere qualsiasi compagnia aerea.
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Filtro.
Scegliere la colonna UniqueCarrier .
Per Operatore, scegliere È uguale a.
Per Valore, immettere la stringa per la compagnia aerea per cui si desidera visualizzare le informazioni sul ritardo. Ad esempio,
UA
.
Fai clic su Applica. Scorrere la colonna UniqueCarrier per visualizzare i risultati.
Creare una nuova colonna che aggiunga gli orari di ritardo di arrivo e partenza.
Selezionare la colonna DepDelay .
Notare che l'operazione Converti tipo di colonna è stata applicata automaticamente come primo passo per convertire i tipi di dati String in tutte le colonne i cui valori sono numeri in tipi di dati Integer.
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Calcola.
Per Operatore, scegliere Aggiunta.
Selezionare Colonna, quindi scegliere la colonna ArrDelay .
Selezionare Crea nuova colonna per i risultati.
Per Nuovo nome colonna, immettere
TotalDelay
.
È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. In questo caso, selezionare Accanto alla colonna originale.
Fai clic su Applica. Viene aggiunta la nuova colonna, TotalDelay.
Spostare la nuova colonna TotalDelay all'inizio del dataset:
Nella casella di testo della riga comandi, scegliere l'operazione select .
Fai clic sulla parola selecte scegli select (`
<column>
`, all ()).Fare clic su
`<column>`
e scegliere la colonna TotalDelay . Una volta terminato, il comando dovrebbe essere simile al seguente:select(`TotalDelay`, everything())
Fai clic su Applica. La colonna TotalDelay è ora la prima colonna.
Ridurre i dati a quattro colonne: Anno, Mese, DayofMonthe TotalDelay. Utilizzare l'operazione di codifica group_by per dividere le colonne in gruppi di anno, mese e giorno.
Nella casella di testo della riga comandi, scegliere l'operazione group_by .
Fare clic su
<column>
e scegliere la colonna Anno .Prima della parentesi di chiusura, immettere:
,Month,DayofMonth
. Una volta terminato, il comando dovrebbe essere simile al seguente:group_by(`Year`,Month,DayofMonth)
Fai clic su Applica.
Utilizzare l'operazione di codifica select per la colonna TotalDelay . Nella casella di testo della riga comandi, selezionare l'operazione select .
Fare clic su<column>
e scegliere la colonna TotalDelay . Il comando dovrebbe essere simile al seguente:select(`TotalDelay`)
Fai clic su Applica. I dati di forma ora sono costituiti dalle colonne Anno, Mese, DayofMonthe TotalDelay .
La seguente immagine mostra le prime quattro righe dei dati.
Mostrare la media dei valori della colonna TotalDelay e creare una nuova colonna AverageDelay :
Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Aggregato.
Per Colonna, selezionare TotalDelay.
Per Operatore, selezionare Media.
Per Nome della colonna aggregata, immettere
AverageDelay
.
Fai clic su Applica.
La nuova colonna AverageDelay è la media di tutti i tempi di ritardo.
Controlla i tuoi progressi
La seguente immagine mostra le prime quattro righe dei dati
Attività 5: eseguire un lavoro per il flusso Data Refinery
Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 04:00.
Quando si esegue un job per il flusso Data Refinery , i passi vengono eseguiti sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. L'output del flusso Data Refinery viene aggiunto agli asset di dati nel progetto. Seguire questa procedura per eseguire un job per creare il dataset rifinito.
Dalla barra degli strumenti Data Refinery , fare clic su Lavori e selezionare Salva e crea un lavoro
.Immettere un nome e una descrizione per il lavoro e fare clic su Avanti.
Selezionare un ambiente di runtime e fare clic su Avanti.
(Facoltativo) Fare clic sul pulsante di attivazione / disattivazione per pianificare un'esecuzione. Specificare la data, l'ora e se si desidera che il job venga ripetuto e fare clic su Avanti.
(Facoltativo) Attivare le notifiche per questo lavoro e fare clic su Avanti.
Esaminare i dettagli e fare clic su Crea ed esegui per eseguire immediatamente il lavoro.
Una volta creato il lavoro, fare clic sul collegamento Dettagli lavoro nella notifica per visualizzare il lavoro nel progetto. In alternativa, è possibile passare alla scheda Lavori nel progetto e fare clic sul nome del job per aprirlo.
Quando lo Stato per il job è Completato, utilizzare il percorso di navigazione del progetto per tornare alla scheda Asset nel progetto.
Fare clic sulla sezione Dati> Asset dati per vedere l'output del flusso Data Refinery , airline-data_shaped.csv.
Fare clic sulla sezione Flussi> Data Refinery flussi per vedere il flusso Data Refinery , airline-data.csv_flow.
Controlla i tuoi progressi
La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset a forma di.
Attività 6: creare un altro asset di dati dal flusso Data Refinery
Per visualizzare in anteprima questa attività, guardare il video a partire dalle 05:26.
Seguire questa procedura per perfezionare ulteriormente il dataset modificando il flusso Data Refinery :
Fare clic su airline-data.csv_flow per aprire il flusso in Data Refinery.
Ordinare la colonna AverageDelay in ordine decrescente.
Selezionare la colonna AverageDelay .
Fare clic sul menu Overflow (), quindi selezionare Ordinamento decrescente.
Fare clic sull'icona Impostazioni flusso .
Fare clic sul pannello Serie di dati di destinazione .
Fare clic su Modifica proprietà.
Nella casella di dialogo Formatta proprietà di destinazione , modificare il nome dell'asset di dati in
airline-data_sorted_shaped.csv
.
Fare clic su Salva per ritornare alle impostazioni del flusso.
Fare clic su Applica per salvare le impostazioni.
Dalla barra degli strumenti Data Refinery , fare clic sull'icona Lavori e selezionare Salva e visualizza lavori.
Selezionare il lavoro per i dati della compagnia aerea e fare clic su Visualizza.
Dalla barra degli strumenti Finestra Lavoro , fare clic su Esegui lavoro .
Controlla i tuoi progressi
La seguente immagine mostra i dettagli del lavoro completato
Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto
Per visualizzare in anteprima questa attività, guardare il video a partire dalle 06:40.
Ora seguire questi passi per visualizzare i tre asset di dati, l'originale, il primo set di dati rifinito e il secondo set di dati rifinito:
Una volta completato il lavoro, andare alla pagina del progetto.
Fare clic sulla scheda Asset.
Nella sezione Asset di dati , verrà visualizzato il dataset originale caricato e l'output dei due flussi Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Fare clic sull'asset di dati airline - data_csv_forme per visualizzare il ritardo medio non ordinato. Tornare alla scheda Asset .
Fare clic sull'asset di dati airline-data_sorted_shaped.csv per visualizzare il ritardo medio in ordine decrescente. Tornare alla scheda Asset .
Fare clic sulla sezione Flussi> Data Refinery flussi mostra il flusso Data Refinery :
airline-data.csv_flow
.
Controlla i tuoi progressi
La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati
Passi successivi
Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:
Ulteriori risorse
Visualizza altri video.
Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:
Notebooks che è possibile aggiungere al progetto per iniziare ad analizzare i dati e a creare modelli.
Progetti che è possibile importare contenenti notebook, dataset, prompt e altri asset.
Set di dati che è possibile aggiungere al proprio progetto per perfezionare, analizzare e creare modelli.
Richiedi che è possibile utilizzare in Prompt Lab per richiedere un modello di base.
Foundation models che è possibile utilizzare in Prompt Lab.
Argomento principale: Esercitazioni introduttive