Per affinare i dati, li si prende da una posizione, li si pulisce e li si modella, quindi si scrive il risultato in un'altra posizione. È possibile ripulire e modellare i dati tabulari con uno strumento di editor di flusso grafico denominato Data Refinery.
Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si modellano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono informazioni dettagliate sui dati.
- Servizio richiesto
- watsonx.ai Studio o IBM Knowledge Catalog
- Formato dati
- Avro, CSV, JSON, Microsoft Excel (formati xls e xlsx. Solo primo foglio, ad eccezione delle connessioni e degli asset di dati connessi.), Parquet, SAS con estensione "sas7bdat" (sola lettura), TSV (sola lettura) o asset di dati di testo delimitato
- Tabelle in origini dati relazionali
- Dimensione dati
- Qualsiasi. Data Refinery opera su un insieme di righe di esempio nel dataset. La dimensione del campione è di 1 MB o 10.000 righe, a seconda di quale di queste si verifica per prima. Tuttavia, quando si esegue un job per il flusso Data Refinery , viene elaborato tutto il dataset. Se il flusso Data Refinery ha esito negativo con un asset di dati di grandi dimensioni, consultare le soluzioni temporanee in Risoluzione dei problemi Data Refinery.
Per ulteriori informazioni sulla scelta dello strumento giusto per il tuo caso di utilizzo e i dati, vedi Scelta di uno strumento.
- Prerequisiti
- Limitazioni del file di origine
- Limitazioni file di destinazione
- Regole di protezione dei dati
- Anteprime dataset
- Perfezionare i dati
Prerequisiti
Prima di poter perfezionare i dati, devi creare un progetto che utilizza Cloud Object Storage.
Guarda questo video per vedere come creare un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Se i dati sono presenti in fonti di dati cloud o on-premise, è necessario aggiungere connessioni a tali fonti o aggiungere risorse di dati da ciascuna connessione. Se vuoi essere in grado di salvare i dati rifiniti nel cloud o nelle origini dati in loco, crea anche connessioni per questo scopo. In Data Refinery, le connessioni di origine possono essere usate solo per leggere i dati; le connessioni di destinazione possono essere usate solo per scrivere i dati. Quando si crea una connessione di destinazione, assicurarsi di utilizzare credenziali con autorizzazione di scrittura, altrimenti non sarà possibile salvare l'output del flusso di Data Refinery nella destinazione.
Guarda questo video per vedere come creare una connessione e aggiungere dati connessi a un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Limitazioni file di origine
File CSV
Assicurarsi che i file CSV siano formattati correttamente e rispettino le seguenti regole:
- Due virgole consecutive in una riga indicano una colonna vuota.
- Se una riga termina con una virgola, viene creata una colonna aggiuntiva.
Se il file CVS contiene un payload dannoso (ad esempio, formule) in un campo di input, questi elementi potrebbero essere eseguiti.
I caratteri spazio vuoto vengono considerati come parte dei dati
Se i dati includono colonne che contengono spazi vuoti, Data Refinery considera tali spazi vuoti come parte dei dati, anche se non è possibile visualizzarli nella griglia. Alcuni strumenti del database potrebbero riempire le stringhe di caratteri con caratteri spazio vuoto per rendere tutti i dati in una colonna della stessa lunghezza e questa modifica influisce sui risultati delle operazioni Data Refinery che confrontano i dati.
Nomi colonne
Assicurarsi che i nomi colonna rispettino le seguenti regole:
- I nomi colonna duplicati non sono consentiti. I nomi colonna devono essere univoci all'interno del dataset. I nomi colonna non sono sensibili al maiuscolo / minuscolo. Un dataset che include un nome colonna "Vendite" e un altro nome colonna "Vendite" non funzionerà.
- I nomi delle colonne non sono parole riservate nel linguaggio di programmazione R.
- I nomi colonna non sono numeri. Una soluzione temporanea è racchiudere i nomi colonna tra virgolette ("").
I dataset con colonne con il tipo di dati "Altro" non sono supportati nei flussi Data Refinery
Se il set di dati contiene colonne con tipi di dati identificati come "Altro" nell'anteprima di watsonx.ai Studio, le colonne verranno visualizzate come tipo di dati String in Data Refinery. Tuttavia, se si tenta di utilizzare i dati in un flusso Data Refinery , il lavoro per il flusso Data Refinery avrà esito negativo. Un esempio di tipo di dati visualizzato come "Altro" nell'anteprima è il tipo di dati Db2 DECFLOAT.
Limitazioni file di destinazione
La seguente limitazione si applica se si salva l'output del flusso Data Refinery (il dataset di destinazione) in un file:
- Non è possibile modificare il formato file se il file è un asset di dati esistente.
Regole di protezione dei dati
Data Refinery non supporta le regole di protezione dei dati per il filtraggio delle righe. I lavori di Data Refinery potrebbero avere esito negativo se l'asset è regolato dalle regole di protezione dei dati di filtro delle righe. Inoltre, se si aggiunge un asset da IBM Knowledge Catalog a un progetto che è governato dalle regole di protezione dei dati che filtrano le righe, il mascheramento non verrà applicato in Data Refinery. Per informazioni, consultare Applicazione delle regole di protezione dati.
Anteprime dataset
Data Refinery fornisce il supporto per dataset di grandi dimensioni, che possono richiedere molto tempo e non essere maneggevoli da perfezionare. Per consentire all'utente di lavorare in modo rapido ed efficiente, opera su un sottoinsieme di righe nel dataset mentre si perfezionano i dati in modo interattivo. Quando si esegue un lavoro per il flusso Data Refinery , esso opera sull'intero dataset.
Perfezionare i dati
Il seguente video mostra come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video Ora Trascrizione 00:00 Questo video mostra come modellare i dati grezzi utilizzando Data Refinery. 00:05 Per iniziare a perfezionare i dati da un progetto, visualizzare l'asset di dati e aprirlo in Data Refinery. 00:14 Il riquadro "Informazioni" contiene il nome per il flusso di dati e per l'output del flusso di dati, una volta terminato il perfezionamento dei dati. 00:23 La scheda "Dati" mostra una serie di esempio di righe e colonne nel dataset. 00:29 Per migliorare le prestazioni, non vedrai tutte le righe nello shaper. 00:33 Ma siate certi che quando avrete finito di perfezionare i dati, il flusso di dati verrà eseguito sull'intero dataset. 00:41 La scheda "Profilo" mostra le statistiche di frequenza e riepilogo per ciascuna delle colonne. 00:49 La scheda "Visualizzazioni" fornisce le visualizzazioni dei dati per le colonne a cui si è interessati. 00:57 I grafici suggeriti hanno un punto blu accanto alle loro icone. 01:03 Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati. 01:12 Ora, facciamo qualche lite di dati. 01:17 Iniziare con un'operazione semplice, come l'ordine sulla colonna specificata - in questo caso, la colonna "Anno". 01:27 Diciamo che vuoi concentrarti sui ritardi solo per una compagnia aerea specifica in modo da poter filtrare i dati per mostrare solo quelle righe in cui il vettore unico è "United Airlines". 01:47 Sarebbe utile vedere il ritardo totale. 01:50 È possibile farlo creando una nuova colonna per combinare i ritardi di arrivo e partenza. 01:56 Notare che il tipo di colonna viene dedotto come numero intero. 02:00 Selezionare la colonna Ritardo di partenza e utilizzare l'operazione "Calcola". 02:09 In questo caso, si aggiungerà la colonna del ritardo di arrivo alla colonna selezionata e si creerà una nuova colonna, chiamata "TotalDelay". 02:23 È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. 02:31 Quando si applica l'operazione, la nuova colonna viene visualizzata accanto alla colonna del ritardo di partenza. 02:38 Se si commette un errore, o semplicemente si decide di apportare una modifica, basta accedere al pannello "Passi" ed eliminare quel passo. 02:46 Questa operazione annullerà quella particolare operazione. 02:50 È anche possibile utilizzare i pulsanti di ripristino e annullamento. 02:56 Successivamente, si desidera concentrarsi sulla colonna "TotalDelay", in modo da poter utilizzare l'operazione "select" per spostare la colonna all'inizio. 03:09 Questo comando dispone la colonna "TotalDelay" come prima dell'elenco e tutto il resto viene dopo. 03:21 Successivamente, utilizzare l'operazione "group_by" per dividere i dati in gruppi per anno, mese e giorno. 03:32 Quindi, quando si seleziona la colonna "TotalDelay", si vedranno le colonne "Year", "Month", "DayofMonth", e "TotalDelay". 03:44 Infine, si vuole trovare la media della colonna "TotalDelay". 03:48 Quando si espande il menu "Operazioni", nella sezione "Organizza", si trova l'operazione "Aggregato", che comprende la funzione "Media". 04:08 Ora abbiamo una nuova colonna, chiamata "AverageDelay", che rappresenta la media del ritardo totale. 04:17 Ora per eseguire il flusso di dati, salvare e creare il job. 04:24 Fornire un nome per il lavoro e continuare con il pannello successivo. 04:28 Il passo "Configura" consente di esaminare l'input e l'output dell'esecuzione del job. 04:36 Selezionare l'ambiente utilizzato per eseguire il lavoro. 04:41 La pianificazione di un lavoro è facoltativa, ma è possibile impostare una data e ripetere il lavoro, se si desidera. 04:51 E si può scegliere di ricevere notifiche per questo lavoro. 04:56 Tutto sembra buono, quindi creare ed eseguire il lavoro. 05:00 Questa operazione potrebbe richiedere diversi minuti, poiché il flusso di dati verrà eseguito sull'intero dataset. 05:06 Nel frattempo, è possibile visualizzare lo stato. 05:12 Quando l'esecuzione è in competizione, è possibile tornare alla scheda "Asset" del progetto. 05:20 Aprire il flusso Data Refinery per perfezionare ulteriormente i dati. 05:28 Ad esempio, è possibile ordinare la colonna "AverageDelay" in ordine decrescente. 05:36 Ora, modificare le impostazioni del flusso. 05:39 Nel pannello "Generale", è possibile modificare il nome del flusso Data Refinery . 05:46 Nel pannello "Serie di dati di origine", è possibile modificare l'esempio o il formato per il dataset di origine o sostituire l'origine dati. 05:56 Nel riquadro "Serie di dati di destinazione", è possibile specificare un'ubicazione alternativa, ad esempio un'origine dati esterna. 06:06 È inoltre possibile modificare le proprietà per la destinazione, come la modalità di scrittura, il formato file e modificare il nome asset del dataset. 06:21 Ora, eseguire nuovamente il flusso di dati; ma questa volta, salvare e visualizzare i job. 06:28 Selezionare il lavoro che si desidera visualizzare dall'elenco ed eseguire il lavoro. 06:41 Al termine dell'esecuzione, tornare al progetto. 06:46 E nella scheda "Asset", vedrai tutti e tre i file: 06:51 L'originale. 06:54 Il primo set di dati raffinato, che mostra il "AverageDelay" non ordinato. 07:02 E il secondo set di dati, che mostra la colonna "AverageDelay" ordinata in modo decrescente. 07:11 E di nuovo nella scheda "Asset", c'è il flusso Data Refinery . 07:19 Trova ulteriori video nella documentazione Cloud Pak for Data as a Service .
1. Accedere a Data Refinery dall'interno di un progetto. Fare clic su Nuovo asset> Prepara e visualizza dati. Quindi selezionare i dati che si desidera utilizzare. In alternativa, dalla scheda Risorse di un progetto, fare clic su una risorsa dati per visualizzarne l'anteprima, quindi fare clic su Prepara dati.
2. Utilizzare la procedura per applicare operazioni che ripuliscono, modellano e arricchiscono i dati. Sfoglia le categorie di operazioni o cerca una specifica operazione, quindi lascia che l'IU ti guidi. È possibile immettere il codice R nella riga comandi e consentire il completamento automatico per ottenere la sintassi corretta. Quando si applicano operazioni a un dataset, Data Refinery ne tiene traccia e crea un flusso Data Refinery . Per ogni operazione applicata, Data Refinery aggiunge un passo.
Scheda dati "
"
Se i dati contengono tipi di dati non stringa, l'operazione della GUI Converti tipo di colonna viene applicata automaticamente come primo passo nel flusso Data Refinery quando si apre un file in Data Refinery. I tipi di dati vengono convertiti automaticamente in tipi di dati dedotti, come Integer, Date o Boolean. È possibile annullare o modificare questo passo.
3. Fare clic sulla scheda Profilo per convalidare i dati durante il processo di rifinitura dei dati.
Scheda profilo "
"
4. Fare clic su Visualizzazioni per visualizzare i dati nei grafici. Scoprire modelli, tendenze e correlazioni all'interno dei dati.
Scheda visualizzazioni '
'
5. Restringere il dataset di esempio per adattarlo alle proprie esigenze.
6. Fare clic su Salva e crea un job o su Salva e visualizza job nella barra degli strumenti per eseguire il flusso Data Refinery sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. Per informazioni sui lavori, consultare Creazione di lavori in Data Refinery.
Quando si esegue un lavoro per il flusso Data Refinery, viene elaborato l'intero set di dati. Pertanto, il lavoro potrebbe potenzialmente creare un set di dati di output (target) di grandi dimensioni, in base alle trasformazioni e alla quantità di dati elaborati nel flusso. Per impostazione predefinita, il risultato del flusso Data Refinery viene salvato come asset di dati nel progetto.
Per le azioni che è possibile eseguire quando si perfezionano i dati, consultare Gestione dei flussi di Data Refinery.
Passo successivo
Ulteriori informazioni
Argomento principale: Preparazione dei dati