Per affinare i dati, li si prende da una posizione, li si pulisce e li si modella, quindi si scrive il risultato in un'altra posizione. È possibile ripulire e modellare i dati tabulari con uno strumento di editor di flusso grafico denominato Data Refinery.
Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si modellano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono informazioni dettagliate sui dati.
Servizio richiesto
watsonx.ai Studio o IBM Knowledge Catalog
Formato dati
Avro, CSV, JSON, Microsoft Excel (formati xls e xlsx. Solo primo foglio, ad eccezione delle connessioni e degli asset di dati connessi.), Parquet, SAS con estensione "sas7bdat" (sola lettura), TSV (sola lettura) o asset di dati di testo delimitato
Tabelle in origini dati relazionali
Dimensione dati
Qualsiasi. Data Refinery opera su un insieme di righe di esempio nel dataset. La dimensione del campione è di 1 MB o 10.000 righe, a seconda di quale di queste si verifica per prima. Tuttavia, quando si esegue un job per il flusso Data Refinery , viene elaborato tutto il dataset. Se il flusso Data Refinery ha esito negativo con un asset di dati di grandi dimensioni, consultare le soluzioni temporanee in Risoluzione dei problemi Data Refinery.
Per ulteriori informazioni sulla scelta dello strumento giusto per il tuo caso di utilizzo e i dati, vedi Scelta di uno strumento.
Prima di poter perfezionare i dati, devi creare un progetto che utilizza Cloud Object Storage.
Guarda questo video per vedere come creare un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Se i dati sono presenti in fonti di dati cloud o on-premise, è necessario aggiungere connessioni a tali fonti o aggiungere risorse di dati da ciascuna connessione. Se vuoi essere in grado di salvare i dati rifiniti nel cloud o nelle origini dati in loco, crea anche connessioni per questo scopo. In Data Refinery, le connessioni di origine possono essere usate solo per leggere i dati; le connessioni di destinazione possono essere usate solo per scrivere i dati. Quando si crea una connessione di destinazione, assicurarsi di utilizzare credenziali con autorizzazione di scrittura, altrimenti non sarà possibile salvare l'output del flusso di Data Refinery nella destinazione.
Guarda questo video per vedere come creare una connessione e aggiungere dati connessi a un progetto
Disclaimer video: alcuni passi secondari ed elementi grafici in questo video potrebbero essere diversi dalla propria piattaforma.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Limitazioni file di origine
Copy link to section
File CSV
Copy link to section
Assicurarsi che i file CSV siano formattati correttamente e rispettino le seguenti regole:
Due virgole consecutive in una riga indicano una colonna vuota.
Se una riga termina con una virgola, viene creata una colonna aggiuntiva.
Nota:
Se il file CVS contiene un payload dannoso (ad esempio, formule) in un campo di input, questi elementi potrebbero essere eseguiti.
I caratteri spazio vuoto vengono considerati come parte dei dati
Copy link to section
Se i dati includono colonne che contengono spazi vuoti, Data Refinery considera tali spazi vuoti come parte dei dati, anche se non è possibile visualizzarli nella griglia. Alcuni strumenti del database potrebbero riempire le stringhe di caratteri con caratteri spazio vuoto per rendere tutti i dati in una colonna della stessa lunghezza e questa modifica influisce sui risultati delle operazioni Data Refinery che confrontano i dati.
Nomi colonne
Copy link to section
Assicurarsi che i nomi colonna rispettino le seguenti regole:
I nomi colonna duplicati non sono consentiti. I nomi colonna devono essere univoci all'interno del dataset. I nomi colonna non sono sensibili al maiuscolo / minuscolo. Un dataset che include un nome colonna "Vendite" e un altro nome colonna "Vendite" non funzionerà.
I nomi delle colonne non sono parole riservate nel linguaggio di programmazione R.
I nomi colonna non sono numeri. Una soluzione temporanea è racchiudere i nomi colonna tra virgolette ("").
I dataset con colonne con il tipo di dati "Altro" non sono supportati nei flussi Data Refinery
Copy link to section
Se il set di dati contiene colonne con tipi di dati identificati come "Altro" nell'anteprima di watsonx.ai Studio, le colonne verranno visualizzate come tipo di dati String in Data Refinery. Tuttavia, se si tenta di utilizzare i dati in un flusso Data Refinery , il lavoro per il flusso Data Refinery avrà esito negativo. Un esempio di tipo di dati visualizzato come "Altro" nell'anteprima è il tipo di dati Db2 DECFLOAT.
Limitazioni file di destinazione
Copy link to section
La seguente limitazione si applica se si salva l'output del flusso Data Refinery (il dataset di destinazione) in un file:
Non è possibile modificare il formato file se il file è un asset di dati esistente.
Regole di protezione dei dati
Copy link to section
Data Refinery non supporta le regole di protezione dei dati per il filtraggio delle righe. I lavori di Data Refinery potrebbero avere esito negativo se l'asset è regolato dalle regole di protezione dei dati di filtro delle righe. Inoltre, se si aggiunge un asset da IBM Knowledge Catalog a un progetto che è governato dalle regole di protezione dei dati che filtrano le righe, il mascheramento non verrà applicato in Data Refinery. Per informazioni, consultare Applicazione delle regole di protezione dati.
Anteprime dataset
Copy link to section
Data Refinery fornisce il supporto per dataset di grandi dimensioni, che possono richiedere molto tempo e non essere maneggevoli da perfezionare. Per consentire all'utente di lavorare in modo rapido ed efficiente, opera su un sottoinsieme di righe nel dataset mentre si perfezionano i dati in modo interattivo. Quando si esegue un lavoro per il flusso Data Refinery , esso opera sull'intero dataset.
Perfezionare i dati
Copy link to section
Il seguente video mostra come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione
Trascrizione del video
Ora
Trascrizione
00:00
Questo video mostra come modellare i dati grezzi utilizzando Data Refinery.
00:05
Per iniziare a perfezionare i dati da un progetto, visualizzare l'asset di dati e aprirlo in Data Refinery.
00:14
Il riquadro "Informazioni" contiene il nome per il flusso di dati e per l'output del flusso di dati, una volta terminato il perfezionamento dei dati.
00:23
La scheda "Dati" mostra una serie di esempio di righe e colonne nel dataset.
00:29
Per migliorare le prestazioni, non vedrai tutte le righe nello shaper.
00:33
Ma siate certi che quando avrete finito di perfezionare i dati, il flusso di dati verrà eseguito sull'intero dataset.
00:41
La scheda "Profilo" mostra le statistiche di frequenza e riepilogo per ciascuna delle colonne.
00:49
La scheda "Visualizzazioni" fornisce le visualizzazioni dei dati per le colonne a cui si è interessati.
00:57
I grafici suggeriti hanno un punto blu accanto alle loro icone.
01:03
Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.
01:12
Ora, facciamo qualche lite di dati.
01:17
Iniziare con un'operazione semplice, come l'ordine sulla colonna specificata - in questo caso, la colonna "Anno".
01:27
Diciamo che vuoi concentrarti sui ritardi solo per una compagnia aerea specifica in modo da poter filtrare i dati per mostrare solo quelle righe in cui il vettore unico è "United Airlines".
01:47
Sarebbe utile vedere il ritardo totale.
01:50
È possibile farlo creando una nuova colonna per combinare i ritardi di arrivo e partenza.
01:56
Notare che il tipo di colonna viene dedotto come numero intero.
02:00
Selezionare la colonna Ritardo di partenza e utilizzare l'operazione "Calcola".
02:09
In questo caso, si aggiungerà la colonna del ritardo di arrivo alla colonna selezionata e si creerà una nuova colonna, chiamata "TotalDelay".
02:23
È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale.
02:31
Quando si applica l'operazione, la nuova colonna viene visualizzata accanto alla colonna del ritardo di partenza.
02:38
Se si commette un errore, o semplicemente si decide di apportare una modifica, basta accedere al pannello "Passi" ed eliminare quel passo.
02:46
Questa operazione annullerà quella particolare operazione.
02:50
È anche possibile utilizzare i pulsanti di ripristino e annullamento.
02:56
Successivamente, si desidera concentrarsi sulla colonna "TotalDelay", in modo da poter utilizzare l'operazione "select" per spostare la colonna all'inizio.
03:09
Questo comando dispone la colonna "TotalDelay" come prima dell'elenco e tutto il resto viene dopo.
03:21
Successivamente, utilizzare l'operazione "group_by" per dividere i dati in gruppi per anno, mese e giorno.
03:32
Quindi, quando si seleziona la colonna "TotalDelay", si vedranno le colonne "Year", "Month", "DayofMonth", e "TotalDelay".
03:44
Infine, si vuole trovare la media della colonna "TotalDelay".
03:48
Quando si espande il menu "Operazioni", nella sezione "Organizza", si trova l'operazione "Aggregato", che comprende la funzione "Media".
04:08
Ora abbiamo una nuova colonna, chiamata "AverageDelay", che rappresenta la media del ritardo totale.
04:17
Ora per eseguire il flusso di dati, salvare e creare il job.
04:24
Fornire un nome per il lavoro e continuare con il pannello successivo.
04:28
Il passo "Configura" consente di esaminare l'input e l'output dell'esecuzione del job.
04:36
Selezionare l'ambiente utilizzato per eseguire il lavoro.
04:41
La pianificazione di un lavoro è facoltativa, ma è possibile impostare una data e ripetere il lavoro, se si desidera.
04:51
E si può scegliere di ricevere notifiche per questo lavoro.
04:56
Tutto sembra buono, quindi creare ed eseguire il lavoro.
05:00
Questa operazione potrebbe richiedere diversi minuti, poiché il flusso di dati verrà eseguito sull'intero dataset.
05:06
Nel frattempo, è possibile visualizzare lo stato.
05:12
Quando l'esecuzione è in competizione, è possibile tornare alla scheda "Asset" del progetto.
05:20
Aprire il flusso Data Refinery per perfezionare ulteriormente i dati.
05:28
Ad esempio, è possibile ordinare la colonna "AverageDelay" in ordine decrescente.
05:36
Ora, modificare le impostazioni del flusso.
05:39
Nel pannello "Generale", è possibile modificare il nome del flusso Data Refinery .
05:46
Nel pannello "Serie di dati di origine", è possibile modificare l'esempio o il formato per il dataset di origine o sostituire l'origine dati.
05:56
Nel riquadro "Serie di dati di destinazione", è possibile specificare un'ubicazione alternativa, ad esempio un'origine dati esterna.
06:06
È inoltre possibile modificare le proprietà per la destinazione, come la modalità di scrittura, il formato file e modificare il nome asset del dataset.
06:21
Ora, eseguire nuovamente il flusso di dati; ma questa volta, salvare e visualizzare i job.
06:28
Selezionare il lavoro che si desidera visualizzare dall'elenco ed eseguire il lavoro.
06:41
Al termine dell'esecuzione, tornare al progetto.
06:46
E nella scheda "Asset", vedrai tutti e tre i file:
06:51
L'originale.
06:54
Il primo set di dati raffinato, che mostra il "AverageDelay" non ordinato.
07:02
E il secondo set di dati, che mostra la colonna "AverageDelay" ordinata in modo decrescente.
07:11
E di nuovo nella scheda "Asset", c'è il flusso Data Refinery .
07:19
Trova ulteriori video nella documentazione Cloud Pak for Data as a Service .
1. Accedere a Data Refinery dall'interno di un progetto. Fare clic su Nuovo asset> Prepara e visualizza dati. Quindi selezionare i dati che si desidera utilizzare. In alternativa, dalla scheda Risorse di un progetto, fare clic su una risorsa dati per visualizzarne l'anteprima, quindi fare clic su Prepara dati.
2. Utilizzare la procedura per applicare operazioni che ripuliscono, modellano e arricchiscono i dati. Sfoglia le categorie di operazioni o cerca una specifica operazione, quindi lascia che l'IU ti guidi. È possibile immettere il codice R nella riga comandi e consentire il completamento automatico per ottenere la sintassi corretta. Quando si applicano operazioni a un dataset, Data Refinery ne tiene traccia e crea un flusso Data Refinery . Per ogni operazione applicata, Data Refinery aggiunge un passo.
Scheda dati " "
Se i dati contengono tipi di dati non stringa, l'operazione della GUI Converti tipo di colonna viene applicata automaticamente come primo passo nel flusso Data Refinery quando si apre un file in Data Refinery. I tipi di dati vengono convertiti automaticamente in tipi di dati dedotti, come Integer, Date o Boolean. È possibile annullare o modificare questo passo.
3. Fare clic sulla scheda Profilo per convalidare i dati durante il processo di rifinitura dei dati.
Scheda profilo " "
4. Fare clic su Visualizzazioni per visualizzare i dati nei grafici. Scoprire modelli, tendenze e correlazioni all'interno dei dati.
Scheda visualizzazioni ' '
5. Restringere il dataset di esempio per adattarlo alle proprie esigenze.
6. Fare clic su Salva e crea un job o su Salva e visualizza job nella barra degli strumenti per eseguire il flusso Data Refinery sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. Per informazioni sui lavori, consultare Creazione di lavori in Data Refinery.
Quando si esegue un lavoro per il flusso Data Refinery, viene elaborato l'intero set di dati. Pertanto, il lavoro potrebbe potenzialmente creare un set di dati di output (target) di grandi dimensioni, in base alle trasformazioni e alla quantità di dati elaborati nel flusso. Per impostazione predefinita, il risultato del flusso Data Refinery viene salvato come asset di dati nel progetto.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.