Per affinare i dati, li si prende da una posizione, li si pulisce e li si modella, quindi si scrive il risultato in un'altra posizione. È possibile ripulire e modellare i dati tabulari con uno strumento di editor di flusso grafico denominato Data Refinery.
Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si modellano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono informazioni dettagliate sui dati.
- Formato dei dati
- Avro, CSV, JSON, Microsoft Excel (formati xls e xlsx. Solo primo foglio, ad eccezione delle connessioni e degli asset di dati connessi.), Parquet, SAS con estensione "sas7bdat" (sola lettura), TSV (sola lettura) o asset di dati di testo delimitato
- Tabelle in origini dati relazionali
- Dimensione dati
- Qualsiasi. Data Refinery opera su un insieme di righe di esempio nel dataset. La dimensione del campione è di 1 MB o 10.000 righe, a seconda di quale di queste si verifica per prima. Tuttavia, quando si esegue un job per il flusso Data Refinery , viene elaborato tutto il dataset. Se il flusso Data Refinery ha esito negativo con un asset di dati di grandi dimensioni, consultare le soluzioni temporanee in Risoluzione dei problemi Data Refinery.
- Prerequisiti
- Limitazioni del file di origine
- Limitazioni file di destinazione
- Anteprime dataset
- Perfezionare i dati
Prerequisiti
Prima di poter perfezionare i dati, hai bisogno di un progetto che utilizza Cloud Object Storage. È possibile utilizzare il progetto sandbox o creare un nuovo progetto.
Guarda questo video per vedere come creare un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Se i dati sono presenti in fonti di dati cloud o on-premise, è necessario aggiungere connessioni a tali fonti o aggiungere risorse di dati da ciascuna connessione. Se vuoi essere in grado di salvare i dati rifiniti nel cloud o nelle origini dati in loco, crea anche connessioni per questo scopo. In Data Refinery, le connessioni di origine possono essere usate solo per leggere i dati; le connessioni di destinazione possono essere usate solo per scrivere i dati. Quando si crea una connessione di destinazione, assicurarsi di utilizzare credenziali con autorizzazione di scrittura, altrimenti non sarà possibile salvare l'output del flusso di Data Refinery nella destinazione.
Guarda questo video per vedere come creare una connessione e aggiungere dati connessi a un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Limitazioni file di origine
File CSV
Verificare che i file CSV siano formattati correttamente e rispettino le seguenti regole:
- Due virgole consecutive in una riga indicano una colonna vuota.
- Se una riga termina con una virgola, viene creata una colonna aggiuntiva.
Se il file CVS contiene un payload dannoso (ad esempio, formule) in un campo di input, questi elementi potrebbero essere eseguiti.
I caratteri spazio vuoto vengono considerati come parte dei dati
Se i dati includono colonne che contengono spazi vuoti, Data Refinery considera tali spazi vuoti come parte dei dati, anche se non è possibile visualizzarli nella griglia. Alcuni strumenti del database potrebbero riempire le stringhe di caratteri con caratteri spazio vuoto per rendere tutti i dati in una colonna della stessa lunghezza e questa modifica influisce sui risultati delle operazioni Data Refinery che confrontano i dati.
Nomi colonne
Assicurarsi che i nomi delle colonne siano conformi alle seguenti regole:
- I nomi colonna duplicati non sono consentiti. I nomi colonna devono essere univoci all'interno del dataset. I nomi colonna non sono sensibili al maiuscolo / minuscolo. Un dataset che include un nome colonna "Vendite" e un altro nome colonna "Vendite" non funzionerà.
- I nomi delle colonne non sono parole riservate nel linguaggio di programmazione R.
- I nomi di colonna non siano numeri. Come soluzione temporanea, è possibile racchiudere i nomi di colonna tra virgolette ("").
I dataset con colonne con il tipo di dati "Altro" non sono supportati nei flussi Data Refinery
Se il set di dati contiene colonne con tipi di dati identificati come "Altro" nell'anteprima di watsonx.ai Studio, le colonne verranno visualizzate come tipo di dati String in Data Refinery. Tuttavia, se si tenta di utilizzare i dati in un flusso Data Refinery , il lavoro per il flusso Data Refinery avrà esito negativo. Un esempio di tipo di dati visualizzato come "Altro" nell'anteprima è il tipo di dati Db2 DECFLOAT.
Limitazioni file di destinazione
La seguente limitazione si applica se si salva l'output del flusso Data Refinery (il dataset di destinazione) in un file:
- Non è possibile modificare il formato file se il file è un asset di dati esistente.
Anteprime dataset
Data Refinery fornisce il supporto per dataset di grandi dimensioni, che possono richiedere molto tempo e non essere maneggevoli da perfezionare. Per consentire all'utente di lavorare in modo rapido ed efficiente, opera su un sottoinsieme di righe nel dataset mentre si perfezionano i dati in modo interattivo. Quando si esegue un lavoro per il flusso Data Refinery , esso opera sull'intero dataset.
Perfezionare i dati
Il seguente video mostra come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
1. Accedere a Data Refinery dall'interno di un progetto. Fare clic su Nuovo asset> Prepara e visualizza i dati. Quindi selezionare i dati che si desidera utilizzare. In alternativa, dalla scheda Risorse di un progetto, fare clic su una risorsa dati per visualizzarne l'anteprima, quindi fare clic su Prepara dati.
2. Utilizzare la procedura per applicare operazioni che ripuliscono, modellano e arricchiscono i dati. Sfoglia le categorie di operazioni o cerca una specifica operazione, quindi lascia che l'IU ti guidi. È possibile immettere il codice R nella riga comandi e consentire il completamento automatico per ottenere la sintassi corretta. Quando si applicano operazioni a un dataset, Data Refinery ne tiene traccia e crea un flusso Data Refinery . Per ogni operazione applicata, Data Refinery aggiunge un passo.
Scheda dati "
"
Se i dati contengono tipi di dati non stringa, l'operazione della GUI Converti tipo di colonna viene applicata automaticamente come primo passo nel flusso Data Refinery quando si apre un file in Data Refinery. I tipi di dati vengono convertiti automaticamente in tipi di dati dedotti, come Integer, Date o Boolean. È possibile annullare o modificare questo passo.
3. Fare clic sulla scheda Profilo per convalidare i dati durante il processo di rifinitura dei dati.
Scheda profilo "
"
4. Fare clic su Visualizzazioni per visualizzare i dati nei grafici. Scoprire modelli, tendenze e correlazioni all'interno dei dati.
Scheda visualizzazioni '
'
5. Restringere il dataset di esempio per adattarlo alle proprie esigenze.
6. Fare clic su Salva e crea un job o su Salva e visualizza job nella barra degli strumenti per eseguire il flusso Data Refinery sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. Per informazioni sui lavori, consultare Creazione di lavori in Data Refinery.
Quando si esegue un lavoro per il flusso Data Refinery, viene elaborato l'intero set di dati. Pertanto, il lavoro potrebbe potenzialmente creare un set di dati di output (target) di grandi dimensioni, in base alle trasformazioni e alla quantità di dati elaborati nel flusso. Per impostazione predefinita, il risultato del flusso Data Refinery viene salvato come asset di dati nel progetto.
Per le azioni che è possibile eseguire quando si perfezionano i dati, consultare Gestione dei flussi di Data Refinery.
Passo successivo
Ulteriori informazioni
Argomento principale: Preparazione dei dati