Los servicios principales para Cloud Pak for Data as a Service proporcionan una serie de herramientas para usuarios con todos los niveles de experiencia para preparar, analizar y modelar datos, desde principiantes hasta expertos. La herramienta adecuada que debe utilizar depende del tipo de datos que tenga, de las tareas que tiene previsto realizar y de la cantidad de automatización que desea.
Para ver qué herramientas utiliza en un proyecto y qué servicios requieren dichas herramientas, abra la correlación de herramientas y servicios.
Para elegir la herramienta adecuada, tenga en cuenta estos factores.
El tipo de datos que tiene
Datos tabulados en archivos delimitados o datos relacionales en orígenes de datos remotos
Archivos de imagen
Datos textuales (no estructurados) en documentos
El tipo de tareas que debe realizar
Preparar datos: limpiar, dar forma, visualizar, organizar y validar datos.
Analizar datos: identificar patrones y relaciones en los datos para visualizar los conocimientos obtenidos.
Crear modelos: crear, formar, probar y desplegar modelos para clasificar datos, realizar predicciones u optimizar decisiones.
La cantidad de automatización que desea
Herramientas del editor de código: utilícelo para escribir código en Python o R, todo ello también con Spark.
Herramientas de creador gráfico: utilice menús y funciones de tipo arrastrar y soltar en un constructor para programar visualmente.
Herramientas de constructor automatizadas: se utiliza para configurar tareas automatizadas que requieren una entrada de usuario limitada.
Para utilizar una herramienta, debe crear un activo específico para dicha herramienta, o abrir un activo existente para dicha herramienta. Para crear un activo, pulse Nuevo activo o Importar activos y, a continuación, elija el tipo de activo que desee. En esta tabla se muestra el tipo de activo que se debe elegir para cada herramienta.
Para editar cuadernos con RStudio, pulse Iniciar IDE > RStudio.
Editor de cuaderno de Jupyter
Copy link to section
Utilice el editor de cuaderno de Jupyter para crear un cuaderno en el que se ejecuta el código para preparar, visualizar y analizar datos, o para crear y formar un modelo.
Servicios necesarios
estudio watsonx.ai
Formato de los datos
Cualquiera
Tamaño de datos
Cualquiera
Cómo preparar datos, analizar datos o crear modelos
Escriba código en Python o R, todos también con Spark.
Incluya texto enriquecido y medios con el código.
Trabaje con cualquier tipo de datos en la forma que desee.
Utilice las bibliotecas y los paquetes preinstalados o instale otros de código y de IBM.
Planificar ejecuciones del código
Importe un cuaderno desde un archivo, una URL o el centro de recursos.
Comparta de forma externa copias de solo lectura del cuaderno.
Cómo empezar
Para crear un cuaderno, haga clic en Nuevo recurso > Trabajar con datos y modelos enPython o cuadernos R .
Vea un vídeo para aprender los conceptos básicos Jupyter notebook
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Data Refinery
Copy link to section
Utilice Data Refinery para preparar y visualizar datos tabulados con un editor de flujo gráfico. Puede crear y, a continuación, ejecutar un flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos.
Servicios necesarios
watsonx.ai Studio o IBM Knowledge Catalog
Formato de los datos
Tabular: Avro, CSV, JSON, Microsoft Excel (formatos xls y xlsx. Primera hoja solamente, excepto para conexiones y activos de datos conectados.), Parquet, SAS con la extensión "sas7bdat" (solo lectura), TSV (solo lectura) o activo de datos de texto delimitado
Relacional: Tablas en orígenes de datos relacionales
Tamaño de datos
Cualquiera
Cómo preparar los datos
Limpie, dé forma a los datos y organícelos con más de 60 operaciones.
Guarde los datos refinados como un nuevo conjunto de datos o actualice los datos originales.
Cree perfiles de los datos para validarlos.
Utilice plantillas interactivas para manipular datos con operaciones de código, funciones y operadores lógicos.
Planifique operaciones recurrentes en los datos.
Cómo analizar los datos
Identifique patrones, conexiones y relaciones dentro de los datos, en varios gráficos de visualización.
Cómo empezar
Para crear un flujo de Data Refinery , pulse Nuevo activo > Preparar y visualizar datos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Data Replication
Copy link to section
Utilice IBM Data Replication on Cloud para integrar y sincronizar datos. Data Replication proporciona una distribución de datos casi en tiempo real con bajo impacto en los orígenes.
Servicio necesario
Data Replication
Servicio relacionado
IBM Knowledge Catalog
Formato de datos
Data Replication funciona con conexiones hacia y desde determinados tipos de fuentes y formatos de datos. Para obtener más información, consulte Conexiones Data Replication datos compatibles.
Credenciales
Data Replication utiliza sus credenciales IBM Cloud para conectarse al servicio.
Cómo empezar
Para iniciar la replicación de datos en un proyecto, haga clic en Nuevo activo > Replicar datos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Data Virtualization
Copy link to section
Utilice Data Virtualization para conectar varios orígenes de datos en una única colección de orígenes de datos o bases de datos de equilibrio automático.
Formato de los datos
Relacional: Tablas en orígenes de datos relacionales
Tamaño de datos
Cualquiera
Cómo preparar los datos
Conéctese a varios orígenes de datos.
Cree tablas virtuales.
Cómo empezar
Para crear tablas virtuales, haga clic en Datos > Data virtualization. En el menú de servicio, pulse Virtualización > Virtualizar > Tablas.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
DataStage
Copy link to section
Utilice DataStage para preparar y visualizar datos tabulados con un editor de flujo gráfico. Puede crear y, a continuación, ejecutar un flujo de DataStage como un conjunto de operaciones ordenadas en los datos.
Servicio necesario
DataStage
Formato de los datos
Tabulado: Avro, CSV, JSON, Parquet, TSV (solo lectura), o archivos de texto delimitados
Relacional: Tablas en orígenes de datos relacionales
Tamaño de datos
Cualquiera
Cómo preparar los datos
Diseñar un flujo de integración de datos gráfico que genera código de Orchestrate para ejecutarlo en el motor paralelo de DataStage de alto rendimiento.
Realizar operaciones como: Unir, Canalizar, Suma de comprobación, Fusionar, Modificar, Eliminar duplicados y Ordenar.
Cómo empezar
Para crear un DataStage fluir, hacer clic Nuevo activo > Transformar e integrar datos. El DataStage el azulejo está en el Constructores gráficos sección.
Vea un vídeo para ver cómo construir un modelo con SPSS Modeler
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Creador de modelos de Decision Optimization
Copy link to section
Decision Optimization sirve para crear y ejecutar modelos de optimización en el modelador de Decision Optimization o en un cuaderno de Jupyter.
Servicios necesarios
estudio watsonx.ai
Formato de datos
Tabulado: Archivos CSV
Tamaño de datos
Cualquiera
Cómo preparar los datos
Importar datos relevantes en un escenario y editarlo.
Cómo crear modelos
Crear modelos de optimización de decisiones prescritivos.
Crear, importar y editar modelos en Python DOcplex, OPL o con expresiones de lenguaje natural.
Crear, importar y editar modelos en cuadernos.
Cómo resolver los modelos
Ejecutar y resolver modelos de optimización de decisiones utilizando motores CPLEX.
Investigar y comparar soluciones para varios escenarios.
Crear tablas, gráficos y notas para visualizar datos y soluciones para uno o más escenarios.
Cómo empezar
Para crear unDecision Optimization modelo, haga clic Nuevo activo > Resolver problemas de optimización , o para cuadernos haga clic Nuevo recurso > Trabajar con datos y modelos enPython o cuadernos R .
Vea un vídeo sobre cómo crear un experimento de Decision Optimization
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Herramienta AutoAI
Copy link to section
La herramienta AutoAI sirve para analizar automáticamente los datos tabulares y generar interconexiones de modelo candidatas personalizadas para el problema de modelado predictivo.
Vea un vídeo sobre cómo construir un experimento AutoAI
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Federated Learning
Copy link to section
Utilice la herramienta de aprendizaje federado para entrenar un modelo común utilizando datos distribuidos. Los datos nunca se combinan ni se comparten, preservando la integridad de los datos al tiempo que se proporciona a todas las partes participantes un modelo basado en los datos agregados.
Servicios necesarios
estudio watsonx.ai
tiempo de ejecución de watsonx.ai
Formato de los datos
Cualquiera
Tamaño de datos
Cualquier tamaño
Cómo crear modelos
Seleccione una infraestructura de entrenamiento.
Configure el modelo común.
Configure un archivo para entrenar el modelo común.
Haga que las partes remotas entrenen sus datos.
Despliegue el modelo común.
Cómo empezar
Para crear un experimento, haga clic en Nuevo activo > Entrenar modelos en datos distribuidos .
Vea un vídeo sobre cómo crear un experimento de aprendizaje federado
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Metadata import
Copy link to section
Utilice la herramienta de importación de metadatos para descubrir e importar automáticamente metadatos técnicos y de proceso para activos de datos en un proyecto o en un catálogo.
Servicio necesario
IBM Knowledge Catalog
Formato de los datos
Cualquiera
Tamaño de datos
Cualquier tamaño
Cómo preparar los datos
Importe activos de datos desde una conexión a un origen de datos.
Cómo empezar
Para importar metadatos, haga clic en Nuevo activo > Importar metadatos para activos de datos.
Vea un vídeo sobre cómo importar metadatos de activos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Enriquecimiento de metadatos
Copy link to section
Utilice la herramienta de enriquecimiento de metadatos para crear automáticamente perfiles de los activos de datos y analizar la calidad de los datos de un proyecto.
Servicio necesario
IBM Knowledge Catalog
Formato de los datos
Relacional y estructurado: tablas y archivos en orígenes de datos relacionales y no relacionales
Tabla: Archivos Avro, CSV o Parquet
Tamaño de datos
Cualquier tamaño
Cómo preparar y analizar datos
Cree un perfil y analice un conjunto de selección de activos de datos de un proyecto.
Cómo empezar
Para enriquecer los datos, haga clic Nuevo activo > Enriquecer activos de datos con metadatos.
Utilice IBM Match 360 with Watson para crear entidades de datos maestros que representan gemelos digitales de sus clientes. Modele y correlacione los datos y, a continuación, ejecute el algoritmo de coincidencia para crear entidades de datos maestros. Personalice y ajuste el algoritmo de comparación para que se ajuste a los requisitos de la organización.
Servicios necesarios
IBM Match 360 with Watson IBM Knowledge Catalog
Tamaño de datos
Hasta 1.000.000 registros (para el plan Beta Lite)
Cómo preparar los datos
Modele y correlacione datos de orígenes en su organización.
Ejecute el algoritmo de coincidencia personalizable para crear entidades de datos maestros.
Vea y edite entidades de datos maestros y sus registros asociados.
Cómo empezar
para crear un IBM Match 360 activo de configuración, haga clic en Nuevo recurso > Consolidar datos en vistas de 360 grados.
Vea un vídeo para obtener una visión general del IDE de RStudio
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Flujos de enmascaramiento
Copy link to section
Utilice la herramienta de flujo de enmascaramiento para preparar copias enmascaradas o subconjuntos enmascarados de datos del catálogo. Se elimina la identificación de los datos utilizando opciones de enmascaramiento avanzadas con reglas de protección de datos.
Servicio necesario
IBM Knowledge Catalog
Formato de los datos
Relacional: Tablas en orígenes de datos relacionales
Tamaño de datos
Cualquier tamaño
Cómo preparar datos, analizar datos o crear modelos
Importe activos de datos del catálogo gobernado al proyecto.
Cree definiciones de trabajo de flujo de enmascaramiento para especificar qué datos se deben enmascarar con las reglas de protección de datos.
Opcionalmente, cree un subconjunto de datos para reducir el tamaño de los datos copiados.
Ejecute los trabajos de flujo de enmascaramiento para cargar las copias enmascaradas en conexiones de base de datos de destino.
Vea un vídeo para saber cómo crear una canalización
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Visualizaciones de datos
Copy link to section
Utilice las visualizaciones de datos para descubrir información a partir de sus datos. Al explorar datos desde diferentes perspectivas con visualizaciones, puede identificar patrones, conexiones y relaciones dentro de esos datos y comprender rápidamente grandes cantidades de información.
Formato de los datos
Tabular: archivos Avro, CSV, JSON, Parquet, TSV, SAV, Microsoft Excel .xls y .xlsx, SAS, archivos de texto delimitados y datos conectados. Para obtener más información sobre los orígenes de datos soportados, consulte Conectores.
Tamaño de datos
Sin límite
Cómo empezar
Para crear una visualización, pulse Activo de datos en la lista de tipos de activos del proyecto y seleccione un activo de datos. Haga clic en la pestaña Visualización y elija un tipo de gráfico.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.