I servizi di base per Cloud Pak for Data as a Service forniscono una gamma di strumenti per gli utenti con tutti i livelli di esperienza nella preparazione, analisi e modellazione dei dati, dal principiante all'esperto. Lo strumento giusto per te dipende dal tipo di dati di cui disponi, dalle attività che intendi eseguire e dalla quantità di automazione che vuoi.
Per vedere quali strumenti si utilizzano in un progetto e quali servizi tali strumenti richiedono, aprire la mappa di strumenti e servizi.
Per scegliere lo strumento giusto, considerare questi fattori.
Il tipo di dati di cui si dispone
Dati tabulari in file delimitati o dati relazionali in origini dati remote
File di immagini
Dati testuali (non strutturati) nei documenti
Il tipo di attività da eseguire
Preparare i dati: pulire, modellare, visualizzare, organizzare e convalidare i dati.
Analizzare i dati: identificare i modelli e le relazioni nei dati e visualizzare le informazioni dettagliate.
Creare modelli: creare, addestrare, testare e implementare modelli per fare previsioni o ottimizzare le decisioni.
Quanto automazione si desidera
Strumenti dell'editor di codice: utilizzare per scrivere il codice in Python o R, anche con Spark.
Strumenti di creazione grafici: utilizzare i menu e la funzionalità di trascinamento e rilascio su un programma di creazione per programmare visivamente.
Strumenti di creazione automatizzati: utilizzare per configurare attività automatizzate che richiedono un input utente limitato.
Per utilizzare un'attrezzatura, è necessario creare un asset specifico per tale attrezzatura oppure aprire un asset esistente per tale attrezzatura. Per creare un asset, fare clic su Nuovo asset o Importa asset e scegliere il tipo di asset desiderato. Questa tabella mostra il tipo di asset da scegliere per ogni attrezzatura.
Per modificare i notebook con RStudio, fare clic su Avvia IDE > RStudio.
Editor di notebook Jupyter
Copy link to section
Usate l'editor di taccuini Jupyter per creare un taccuino in cui eseguire codice per preparare, visualizzare e analizzare i dati o costruire e addestrare un modello.
Servizi richiesti
studio watsonx.ai
Formato dati
Qualsiasi
Dimensione dati
Qualsiasi
Come preparare i dati, analizzare i dati o creare modelli
Scrivi codice in Python o R, anche con Spark.
Includi rich text e media con il tuo codice.
Gestire qualsiasi tipo di dati nel modo desiderato.
Utilizzare o installare altre librerie e package open source e IBM .
Pianifica le esecuzioni del codice
Importare un blocco note da un file, da un URL o dall'hub Risorse.
Condividere le copie di sola lettura del notebook esternamente.
Introduzione
Per creare un taccuino, fare clic su Nuova risorsa > Lavora con dati e modelli inPython o taccuini R .
Guardate un video per imparare le basi del notebook Jupyter
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Data Refinery
Copy link to section
Utilizzare Data Refinery per preparare e visualizzare i dati tabulari con un editor di flusso grafico. Si crea ed esegue un flusso Data Refinery come una serie di operazioni ordinate sui dati.
Servizi richiesti
watsonx.ai Studio o IBM Knowledge Catalog
Formato dati
Tabella: Avro, CSV, JSON, Microsoft Excel (formati xls e xlsx. Solo primo foglio, ad eccezione delle connessioni e degli asset di dati connessi.), Parquet, SAS con estensione "sas7bdat" (sola lettura), TSV (sola lettura) o asset di dati di testo delimitato
Relazionale: tabelle in origini dati relazionali
Dimensione dati
Qualsiasi
Come preparare i dati
Pulisci, forma, organizza i dati con oltre 60 operazioni.
Salvare i dati rifiniti come un nuovo dataset o aggiornare i dati originali.
Dati del profilo per convalidarli.
Utilizzare modelli interattivi per manipolare i dati con operazioni di codice, funzioni e operatori logici.
Pianificare le operazioni ricorrenti sui dati.
Come analizzare i dati
Identificare modelli, connessioni e relazioni all'interno dei dati in più grafici di visualizzazione.
Introduzione
Per creare un flusso Data Refinery , fare clic su Nuovo asset> Prepara e visualizza dati.
Guardate un video per vedere come raffinare i dati
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Data Replication
Copy link to section
Utilizzare la Data Replication per integrare e sincronizzare i dati. La Data Replication fornisce una consegna dei dati quasi in tempo reale con un basso impatto sulle fonti.
Servizio richiesto
Data Replication
Servizio correlato
IBM Knowledge Catalog
Formati dei dati
La Data Replication funziona con connessioni da e verso tipi selezionati di sorgenti e formati di dati. Per ulteriori informazioni, vedere Connessioni di Data Replication supportate.
Credenziali
Data Replication utilizza le credenziali di IBM Cloud per connettersi al servizio.
Introduzione
Per avviare la replica dei dati in un progetto, fare clic su Nuova risorsa > Replica dati.
Guardate un video per capire come virtualizzare i dati
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
DataStage
Copy link to section
Utilizzare DataStage per preparare e visualizzare i dati tabulari con un editor di flusso grafico. Si crea ed esegue un flusso DataStage come una serie di operazioni ordinate sui dati.
Servizio richiesto
DataStage
Formato dati
Tabulare: Avro, CSV, JSON, Parquet, TSV (sola lettura) o file di testo delimitati
Relazionale: tabelle in origini dati relazionali
Dimensione dati
Qualsiasi
Come preparare i dati
Progetta un flusso di integrazione dei dati grafici che genera il codice Orchestrate da eseguire sul motore parallelo DataStage ad alte prestazioni.
Guardate un video per vedere come si costruisce un modello con SPSS Modeler
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
generatore di modelli Decision Optimization
Copy link to section
Utilizzate Decision Optimization per costruire ed eseguire modelli di ottimizzazione nel modellatore di Decision Optimization o in un notebook Jupyter.
Servizi richiesti
studio watsonx.ai
Formati dei dati
Tabella: file CSV
Dimensione dati
Qualsiasi
Come preparare i dati
Importare dati rilevanti in uno scenario e modificarli.
Come creare modelli
Sviluppare modelli di ottimizzazione delle decisioni prescrittivi.
Crea, importa e modifica i modelli in Python DOcplex, OPL o con espressioni del linguaggio naturale.
Creare, importare e modificare modelli in notebook.
Come risolvere i modelli
Eseguire e risolvere i modelli di ottimizzazione delle decisioni utilizzando i motori CPLEX.
Esaminare e confrontare le soluzioni per più scenari.
Creare tabelle, grafici e note per visualizzare dati e soluzioni per uno o più scenari.
Introduzione
Per creare unDecision Optimization modello, fare clic Nuova risorsa > Risolvi problemi di ottimizzazione oppure, per i taccuini, fare clic su Nuova risorsa > Lavora con dati e modelli inPython o taccuini R .
Guardate un video per vedere come costruire un esperimento Decision Optimization
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Strumento AutoAI
Copy link to section
Utilizzare lo strumento AutoAI per analizzare automaticamente dati tabulari e generare pipeline di modelli candidati personalizzate per il problema di modellazione predittiva.
Guardate un video per vedere come costruire un esperimento AutoAI
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Apprendimento federato
Copy link to section
Utilizzare lo strumento Federated Learning per addestrare un modello comune utilizzando i dati distribuiti. I dati non vengono mai combinati o condivisi, preservando l'integrità dei dati e fornendo a tutte le parti partecipanti un modello basato sui dati aggregati.
Servizi richiesti
studio watsonx.ai
runtime watsonx.ai
Formato dati
Qualsiasi
Dimensione dati
Qualsiasi dimensione
Come creare modelli
Scegli un framework di formazione.
Configurare il modello comune.
Configurare un file per l'addestramento del modello comune.
Le parti remote devono addestrare i propri dati.
Distribuisci il modello comune.
Introduzione
Per creare un esperimento, fare clic su Nuova risorsa > Addestra modelli su dati distribuiti .
Guardate un video per vedere come costruire un esperimento di apprendimento federato
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Metadata import
Copy link to section
Utilizzare lo strumento di importazione dei metadati per rilevare e importare automaticamente metadati tecnici e di elaborazione per gli asset di dati in un progetto o in un catalogo.
Servizio richiesto
IBM Knowledge Catalog
Formato dati
Qualsiasi
Dimensione dati
Qualsiasi dimensione
Come preparare i dati
Importare gli asset di dati da una connessione a una origine dati.
Introduzione
Per importare i metadati, fare clic su Nuova risorsa > Importa metadati per risorse dati.
Guardate un video per vedere come importare i metadati delle risorse
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Arricchimento dei metadati
Copy link to section
Utilizzare lo strumento di arricchimento metadati per creare automaticamente il profilo degli asset di dati e analizzare la qualità dei dati in un progetto.
Servizio richiesto
IBM Knowledge Catalog
Formato dati
Relazionale e strutturato: tabelle e file in origini dati relazionale e non relazionale
Tabella: file Avro, CSV o Parquet
Dimensione dati
Qualsiasi dimensione
Come preparare e analizzare i dati
Creare un profilo e analizzare una serie selezionata di asset di dati in un progetto.
Introduzione
Per arricchire i dati, fare clic su Nuova risorsa > Arricchisci le risorse di dati con metadati.
Utilizza IBM Match 360 with Watson per creare entità di dati master che rappresentano i gemelli digitali dei clienti. Modellare e associare i propri dati, quindi eseguire l'algoritmo di corrispondenza per creare entità di dati master. Personalizzazione e ottimizzazione dell'algoritmo di corrispondenza per soddisfare i requisiti dell'organizzazione.
Servizi richiesti
IBM Match 360 with Watson IBM Knowledge Catalog
Dimensione dati
Fino a 1.000.000 di record (per il piano Beta Lite)
Come preparare i dati
Modellare e associare i dati dalle origini nell'organizzazione.
Eseguire l'algoritmo di corrispondenza personalizzabile per creare entità di dati master.
Visualizzare e modificare le entità di dati master e i record associati.
Introduzione
Per creare un IBM Match 360 risorsa di configurazione, fare clic su Nuova risorsa > Consolida i dati in visualizzazioni a 360 gradi.
Guardate il video per vedere una panoramica dell'IDE RStudio
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Flussi di mascheramento
Copy link to section
Utilizzare lo strumento del flusso di mascheramento per preparare copie mascherate o sottoinsiemi mascherati di dati dal catalogo. I dati vengono deidentificati utilizzando opzioni di mascheramento avanzate con regole di protezione dati.
Servizio richiesto
IBM Knowledge Catalog
Formato dati
Relazionale: tabelle in origini dati relazionali
Dimensione dati
Qualsiasi dimensione
Come preparare i dati, analizzare i dati o creare modelli
Importare gli asset di dati dal catalogo gestito al progetto.
Creare definizioni di lavoro del flusso di mascheramento per specificare quali dati mascherare con le regole di protezione dati.
Facoltativamente, creare un sottoinsieme di dati per ridurre la dimensione dei dati copiati.
Eseguire i job del flusso di mascheramento per caricare le copie mascherate sulle connessioni del database di destinazione.
Guardate un video per vedere come creare un flusso di mascheratura
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Pipeline di orchestrazione
Copy link to section
Utilizzare l'editor dell'area di disegno Pipelines per creare un flusso per preparare, visualizzare e analizzare i dati o creare e addestrare un modello.
Formato dati
Qualsiasi
Dimensione dati
Qualsiasi
Come preparare i dati, analizzare i dati o creare modelli
Utilizzare una varietà di nodi che contengono ognuno i propri log.
Integra i notebook nel flusso per eseguire qualsiasi codice Python o R.
Gestire qualsiasi tipo di dati nel modo desiderato.
Pianificare le esecuzioni del flusso.
Importa i dati dalla PVC montata, dal progetto o dai dati di ingest da Github.
Crea il componente personalizzato con un codice Python .
Condizionalizza le tue pipeline per monitorare la qualità dei dati come vuoi.
Utilizza il webhook per inviare email o messaggi per tenerti aggiornato sullo stato del tuo flusso.
Introduzione
Per creare una nuova pipeline, fare clic su Nuova risorsa > Automatizza cicli di vita del modello.
Guardate un video per vedere come creare una pipeline
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Visualizzazioni dati
Copy link to section
Utilizzare le visualizzazioni dei dati per rilevare informazioni dettagliate dai dati. Esplorando i dati da diverse prospettive con le visualizzazioni, è possibile individuare modelli, connessioni e relazioni all'interno di tali dati e comprendere rapidamente grandi quantità di informazioni.
Formato dati
Tabella: file Avro, CSV, JSON, Parchetto, TSV, SAV, Microsoft Excel .xls e .xlsx, SAS, file di testo delimitati e dati connessi. Per ulteriori informazioni sulle origini dati supportate, consultare Connettori.
Dimensione dati
Nessun limite
Introduzione
Per creare una visualizzazione, fare clic su Asset dati nell'elenco di tipi di asset nel progetto e selezionare un asset di dati. Fare clic sulla scheda Visualizzazione e scegliere un tipo di grafico.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.