Los servicios principales para Cloud Pak for Data as a Service proporcionan una serie de herramientas para usuarios con todos los niveles de experiencia para preparar, analizar y modelar datos, desde principiantes hasta expertos. La herramienta adecuada que debe utilizar depende del tipo de datos que tenga, de las tareas que tiene previsto realizar y de la cantidad de automatización que desea.
Para ver qué herramientas utiliza en un proyecto y qué servicios requieren dichas herramientas, abra la correlación de herramientas y servicios.
Para elegir la herramienta adecuada, tenga en cuenta estos factores.
El tipo de datos que tiene
- Datos tabulados en archivos delimitados o datos relacionales en orígenes de datos remotos
- Archivos de imagen
- Datos textuales (no estructurados) en documentos
El tipo de tareas que debe realizar
- Preparar datos: limpiar, dar forma, visualizar, organizar y validar datos.
- Analizar datos: identificar patrones y relaciones en los datos para visualizar los conocimientos obtenidos.
- Crear modelos: crear, formar, probar y desplegar modelos para clasificar datos, realizar predicciones u optimizar decisiones.
La cantidad de automatización que desea
- Herramientas del editor de código: utilícelo para escribir código en Python o R, todo ello también con Spark.
- Herramientas de creador gráfico: utilice menús y funciones de tipo arrastrar y soltar en un constructor para programar visualmente.
- Herramientas de constructor automatizadas: se utiliza para configurar tareas automatizadas que requieren una entrada de usuario limitada.
Encuentre la herramienta más adecuada:
- Herramientas para datos tabulados o relacionales
- Herramientas para datos textuales
- Herramientas para datos de imagen
- Acceso a las herramientas
Herramientas para datos tabulados o relacionales
Herramientas para datos tabulados o relacionales por tarea:
Herramienta | Tipo de herramienta | Preparar datos | Analizar datos | Crear modelos |
---|---|---|---|---|
Editor de cuaderno de Jupyter | Editor de código | ✓ | ✓ | ✓ |
Aprendizaje federado | Editor de código | ✓ | ||
RStudio | Editor de código | ✓ | ✓ | ✓ |
Data Refinery | Creador gráfico | ✓ | ✓ | |
Flujo de enmascaramiento | Creador automatizado | ✓ | ||
Data Virtualization | Creador gráfico | ✓ | ||
DataStage | Creador gráfico | ✓ | ||
Data Replication | Creador gráfico | ✓ | ||
SPSS Modeler | Creador gráfico | ✓ | ✓ | ✓ |
Creador de modelos de Decision Optimization | Creador gráfico y editor de código | ✓ | ✓ | |
AutoAI | Creador automatizado | ✓ | ✓ | |
Metadata import | Creador automatizado | ✓ | ||
Enriquecimiento de metadatos | Creador automatizado | ✓ | ✓ | |
Regla de calidad de datos | Editor de código y constructor automatizado | ✓ | ||
IBM Match 360 with Watson (Beta) | Creador automatizado | ✓ | ||
Interconexiones de orquestación | Creador gráfico | ✓ | ✓ | ✓ |
Herramientas para datos textuales
Herramientas para crear un modelo que funcione con datos textuales:
Herramienta | Editor de código | Creador gráfico | Creador automatizado |
---|---|---|---|
Editor de cuaderno de Jupyter | ✓ | ||
RStudio | ✓ | ||
SPSS Modeler | ✓ | ||
Interconexiones de orquestación | ✓ |
Herramientas para datos de imagen
Herramientas para crear un modelo que clasifica imágenes:
Herramienta | Editor de código | Creador gráfico | Creador automatizado |
---|---|---|---|
Editor de cuaderno de Jupyter | ✓ | ||
RStudio | ✓ | ||
Interconexiones de orquestación | ✓ |
Acceso a las herramientas
Para utilizar una herramienta, debe crear un activo específico para dicha herramienta, o abrir un activo existente para dicha herramienta. Para crear un activo, pulse Nuevo activo o Importar activos y, a continuación, elija el tipo de activo que desee. En esta tabla se muestra el tipo de activo que se debe elegir para cada herramienta.
Para utilizar esta herramienta | Elija este tipo de activo |
---|---|
Editor de cuaderno de Jupyter | Editor de cuaderno de Jupyter |
Data Refinery | Flujo de Data Refinery |
Flujos de enmascaramiento | Flujos de enmascaramiento |
DataStage | Flujo de DataStage |
SPSS Modeler | Flujo de Modeler |
Creador de modelos de Decision Optimization | Decision Optimization |
AutoAI | Experimento AutoAI |
Aprendizaje federado | Experimento de Federated Learning |
Metadata import | Metadata import |
Enriquecimiento de metadatos | Enriquecimiento de metadatos |
Reglas de calidad de datos | Regla de calidad de datos |
IBM Match 360 with Watson (Beta) | Configuración de datos maestros |
Para editar cuadernos con RStudio, pulse Iniciar IDE > RStudio.
Editor de cuaderno de Jupyter
Utilice el editor de cuaderno de Jupyter para crear un cuaderno en el que se ejecuta el código para preparar, visualizar y analizar datos, o para crear y formar un modelo.
- Servicios necesarios
- estudio watsonx.ai
- Formato de los datos
- Cualquiera
- Tamaño de datos
- Cualquiera
- Cómo preparar datos, analizar datos o crear modelos
- Escriba código en Python o R, todos también con Spark.
- Incluya texto enriquecido y medios con el código.
- Trabaje con cualquier tipo de datos en la forma que desee.
- Utilice las bibliotecas y los paquetes preinstalados o instale otros de código y de IBM.
- Planificar ejecuciones del código
- Importar un cuaderno desde un archivo, un URL o el concentrador de recursos.
- Comparta de forma externa copias de solo lectura del cuaderno.
- Cómo empezar
- Para crear un cuaderno, haga clic en Nuevo recurso > Trabajar con datos y modelos enPython o cuadernos R .
- Más información
- Documentación sobre cuadernos
- Vídeos sobre cuadernos
- Cuadernos de ejemplo
Vea un vídeo para aprender los conceptos básicos Jupyter notebook
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Data Refinery
Utilice Data Refinery para preparar y visualizar datos tabulados con un editor de flujo gráfico. Puede crear y, a continuación, ejecutar un flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos.
- Servicios necesarios
- watsonx.ai Studio o IBM Knowledge Catalog
- Formato de los datos
- Tabular: Avro, CSV, JSON, Microsoft Excel (formatos xls y xlsx. Primera hoja solamente, excepto para conexiones y activos de datos conectados.), Parquet, SAS con la extensión "sas7bdat" (solo lectura), TSV (solo lectura) o activo de datos de texto delimitado
- Relacional: Tablas en orígenes de datos relacionales
- Tamaño de datos
- Cualquiera
- Cómo preparar los datos
- Limpie, dé forma a los datos y organícelos con más de 60 operaciones.
- Guarde los datos refinados como un nuevo conjunto de datos o actualice los datos originales.
- Cree perfiles de los datos para validarlos.
- Utilice plantillas interactivas para manipular datos con operaciones de código, funciones y operadores lógicos.
- Planifique operaciones recurrentes en los datos.
- Cómo analizar los datos
- Identifique patrones, conexiones y relaciones dentro de los datos, en varios gráficos de visualización.
- Cómo empezar
- Para crear un flujo de Data Refinery , pulse Nuevo activo > Preparar y visualizar datos.
- Más información
- Documentación sobre Data refinery
- Vídeos sobre Data Refinery
Vea un vídeo para saber cómo afinar los datos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Data Replication
Utilice IBM Data Replication on Cloud para integrar y sincronizar datos. Data Replication proporciona una distribución de datos casi en tiempo real con bajo impacto en los orígenes.
- Servicio necesario
Data Replication
- Servicio relacionado
IBM Knowledge Catalog
- Formato de datos
Data Replication funciona con conexiones hacia y desde determinados tipos de fuentes y formatos de datos. Para obtener más información, consulte Conexiones Data Replication datos compatibles.
- Credenciales
Data Replication utiliza sus credenciales IBM Cloud para conectarse al servicio.
- Cómo empezar
Para iniciar la replicación de datos en un proyecto, haga clic en Nuevo activo > Replicar datos.
- Más información
Vea un vídeo sobre cómo replicar datos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Data Virtualization
Utilice Data Virtualization para conectar varios orígenes de datos en una única colección de orígenes de datos o bases de datos de equilibrio automático.
- Formato de los datos
- Relacional: Tablas en orígenes de datos relacionales
- Tamaño de datos
- Cualquiera
- Cómo preparar los datos
- Conéctese a varios orígenes de datos.
- Cree tablas virtuales.
- Cómo empezar
- Para crear tablas virtuales, haga clic en Datos > Data virtualization. En el menú de servicio, pulse Virtualización > Virtualizar > Tablas.
- Más información
- Documentación sobre Data Virtualization
- Vídeos sobre Data Virtualization
Vea un vídeo sobre cómo virtualizar datos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
DataStage
Utilice DataStage para preparar y visualizar datos tabulados con un editor de flujo gráfico. Puede crear y, a continuación, ejecutar un flujo de DataStage como un conjunto de operaciones ordenadas en los datos.
- Servicio necesario
- DataStage
- Formato de los datos
- Tabulado: Avro, CSV, JSON, Parquet, TSV (solo lectura), o archivos de texto delimitados
- Relacional: Tablas en orígenes de datos relacionales
- Tamaño de datos
- Cualquiera
- Cómo preparar los datos
- Diseñar un flujo de integración de datos gráfico que genera código de Orchestrate para ejecutarlo en el motor paralelo de DataStage de alto rendimiento.
- Realizar operaciones como: Unir, Canalizar, Suma de comprobación, Fusionar, Modificar, Eliminar duplicados y Ordenar.
- Cómo empezar
- Para crear un DataStage fluir, hacer clic Nuevo activo > Transformar e integrar datos. El DataStage el azulejo está en el Constructores gráficos sección.
- Más información
- Documentación sobre DataStage
- Vídeos sobre DataStage
Vea un vídeo sobre cómo transformar datos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
SPSS Modeler
Utilice SPSS Modeler para crear un flujo para preparar datos y crear y entrenar un modelo con un editor de flujos en un constructor gráfico.
- Servicios necesarios
- estudio watsonx.ai
- Formato de datos
- Relacional: Tablas en orígenes de datos relacionales
- Tabulados: Archivos Excel (.xls o .xlsx), archivos CSV o archivos de SPSS Statistics (.sav)
- Textual: En los archivos o tablas relacionales soportadas
- Tamaño de datos
- Cualquiera
- Cómo preparar los datos
- Utilice funciones automáticas de preparación de datos.
- Escriba sentencias SQL para manipular datos.
- Limpie, dé forma, muestre, ordene y derive datos.
- Cómo analizar los datos
- Visualice datos con más de 40 tipos de gráficos.
- Identifique el lenguaje de un campo de texto.
- Cómo crear modelos
- Cree modelos predictivos.
- Elija entre más de 40 algoritmos de modelado.
- Utilice funciones de modelado automático.
- Modele series temporales o datos geoespaciales.
- Clasifique datos textuales.
- Identifique relaciones entre conceptos en datos textuales.
- Cómo empezar
- para crear unSPSS Modeler fluir, hacer clic Nuevo activo > Construir modelos como un flujo visual .
- Más información
- Documentación sobre SPSS Modeler
- Vídeos sobre SPSS Modeler
Vea un vídeo para ver cómo construir un modelo con SPSS Modeler
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Creador de modelos de Decision Optimization
Decision Optimization sirve para crear y ejecutar modelos de optimización en el modelador de Decision Optimization o en un cuaderno de Jupyter.
- Servicios necesarios
- estudio watsonx.ai
- Formato de datos
- Tabulado: Archivos CSV
- Tamaño de datos
- Cualquiera
- Cómo preparar los datos
- Importar datos relevantes en un escenario y editarlo.
- Cómo crear modelos
- Crear modelos de optimización de decisiones prescritivos.
- Crear, importar y editar modelos en Python DOcplex, OPL o con expresiones de lenguaje natural.
- Crear, importar y editar modelos en cuadernos.
- Cómo resolver los modelos
- Ejecutar y resolver modelos de optimización de decisiones utilizando motores CPLEX.
- Investigar y comparar soluciones para varios escenarios.
- Crear tablas, gráficos y notas para visualizar datos y soluciones para uno o más escenarios.
- Cómo empezar
- Para crear unDecision Optimization modelo, haga clic Nuevo activo > Resolver problemas de optimización , o para cuadernos haga clic Nuevo recurso > Trabajar con datos y modelos enPython o cuadernos R .
- Más información
- Documentación sobre Decision Optimization
- Vídeos sobre Decision Optimization
Vea un vídeo sobre cómo crear un experimento de Decision Optimization
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Herramienta AutoAI
La herramienta AutoAI sirve para analizar automáticamente los datos tabulares y generar interconexiones de modelo candidatas personalizadas para el problema de modelado predictivo.
- Servicios necesarios
- tiempo de ejecución de watsonx.ai
- estudio watsonx.ai
- Formato de los datos
- Tabulado: Archivos CSV
- Tamaño de datos
- Depende del tipo de modelo. Consulte Visión general deAutoAI para obtener más detalles.
- Cómo preparar los datos
- Transforme automáticamente los datos, como por ejemplo imputar valores perdidos y transformar el texto en valores escalares.
- Cómo crear modelos
- Forme una clasificación binaria, una clasificación de varias clases o un modelo de regresión.
- Vea una infografía del árbol mostrando las secuencias de las etapas de entrenamiento de AutoAI.
- Genere un marcador de interconexiones del modelo clasificadas por puntuaciones de validación cruzada.
- Guarde una interconexión como un modelo.
- Cómo empezar
- para crear unAutoAI experimentar, haga clic Nuevo activo > Cree modelos de aprendizaje automático automáticamente .
- Más información
- Documentación sobre AutoAI
- Vídeos sobre AutoAI
Vea un vídeo sobre cómo construir un experimento AutoAI
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Federated Learning
Utilice la herramienta de aprendizaje federado para entrenar un modelo común utilizando datos distribuidos. Los datos nunca se combinan ni se comparten, preservando la integridad de los datos al tiempo que se proporciona a todas las partes participantes un modelo basado en los datos agregados.
- Servicios necesarios
- estudio watsonx.ai
- tiempo de ejecución de watsonx.ai
- Formato de los datos
- Cualquiera
- Tamaño de datos
- Cualquier tamaño
- Cómo crear modelos
- Seleccione una infraestructura de entrenamiento.
- Configure el modelo común.
- Configure un archivo para entrenar el modelo común.
- Haga que las partes remotas entrenen sus datos.
- Despliegue el modelo común.
- Cómo empezar
- Para crear un experimento, haga clic en Nuevo activo > Entrenar modelos en datos distribuidos .
- Más información
- Documentación sobre el aprendizaje federado
- Vídeos sobre Federated Learning
Vea un vídeo sobre cómo crear un experimento de aprendizaje federado
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Metadata import
Utilice la herramienta de importación de metadatos para descubrir e importar automáticamente metadatos técnicos y de proceso para activos de datos en un proyecto o en un catálogo.
- Servicio necesario
- IBM Knowledge Catalog
- Formato de los datos
- Cualquiera
- Tamaño de datos
- Cualquier tamaño
- Cómo preparar los datos
- Importe activos de datos desde una conexión a un origen de datos.
- Cómo empezar
- Para importar metadatos, haga clic en Nuevo activo > Importar metadatos para activos de datos.
- Más información
- Documentación sobre la importación de metadatos
- Vídeos sobre IBM Knowledge Catalog
Vea un vídeo sobre cómo importar metadatos de activos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Enriquecimiento de metadatos
Utilice la herramienta de enriquecimiento de metadatos para crear automáticamente perfiles de los activos de datos y analizar la calidad de los datos de un proyecto.
- Servicio necesario
- IBM Knowledge Catalog
- Formato de los datos
- Relacional y estructurado: tablas y archivos en orígenes de datos relacionales y no relacionales
- Tabla: Archivos Avro, CSV o Parquet
- Tamaño de datos
- Cualquier tamaño
- Cómo preparar y analizar datos
- Cree un perfil y analice un conjunto de selección de activos de datos de un proyecto.
- Cómo empezar
- Para enriquecer los datos, haga clic Nuevo activo > Enriquecer activos de datos con metadatos.
- Más información
- Documentación sobre el enriquecimiento de metadatos
- Vídeos sobre IBM Knowledge Catalog
Vea un vídeo sobre cómo enriquecer los activos de datos
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Regla de calidad de datos
Utilice la herramienta de calidad de datos para crear reglas que analicen la calidad de los datos en un proyecto.
- Servicio necesario
- IBM Knowledge Catalog
- Formato de los datos
- Relacional y estructurado: tablas y archivos en orígenes de datos relacionales y no relacionales
- Tabla: Archivos Avro, CSV o Parquet
- Tamaño de datos
- Cualquier tamaño
- Cómo preparar y analizar datos
- Analizar la calidad de un conjunto seleccionado de activos de datos en un proyecto.
- Cómo empezar
- Para crear una regla de calidad de datos, haga clic en Nuevo activo > Medir y monitorear la calidad de los datos.
- Más información
- Documentación sobre reglas de calidad de datos
IBM Match 360 with Watson
Utilice IBM Match 360 with Watson para crear entidades de datos maestros que representan gemelos digitales de sus clientes. Modele y correlacione los datos y, a continuación, ejecute el algoritmo de coincidencia para crear entidades de datos maestros. Personalice y ajuste el algoritmo de comparación para que se ajuste a los requisitos de la organización.
- Servicios necesarios
- IBM Match 360 with Watson IBM Knowledge Catalog
- Tamaño de datos
- Hasta 1.000.000 registros (para el plan Beta Lite)
- Cómo preparar los datos
- Modele y correlacione datos de orígenes en su organización.
- Ejecute el algoritmo de coincidencia personalizable para crear entidades de datos maestros.
- Vea y edite entidades de datos maestros y sus registros asociados.
- Cómo empezar
- para crear un IBM Match 360 activo de configuración, haga clic en Nuevo recurso > Consolidar datos en vistas de 360 grados.
- Más información
- Documentación sobre IBM Match 360 con Watson
- Vídeos sobre IBM Match 360
Vea un vídeo sobre cómo utilizar IBM Match 360
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
IDE de RStudio
Utilice el IDE de RStudio para analizar datos o crear aplicaciones de Shiny escribiendo código R.
- Servicio necesario
- estudio watsonx.ai
- Formato de los datos
- Cualquiera
- Tamaño de datos
- Cualquier tamaño
- Cómo preparar datos, analizar datos y crear modelos
- Escriba código en R.
- Cree aplicaciones Shiny.
- Utilice bibliotecas y paquetes de código abierto.
- Incluya texto enriquecido y medios con el código.
- Prepare datos.
- Visualice datos.
- Descubra información a partir de los datos.
- Cree y entrene un modelo utilizando bibliotecas de código abierto.
- Comparta su aplicación Shiny en un repositorio Git.
- Cómo empezar
- Para utilizar RStudio, pulse Iniciar IDE > RStudio.
- Más información
- Documentación sobre RStudio
- Vídeos sobre RStudio
Vea un vídeo para obtener una visión general del IDE de RStudio
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Flujos de enmascaramiento
Utilice la herramienta de flujo de enmascaramiento para preparar copias enmascaradas o subconjuntos enmascarados de datos del catálogo. Se elimina la identificación de los datos utilizando opciones de enmascaramiento avanzadas con reglas de protección de datos.
- Servicio necesario
- IBM Knowledge Catalog
- Formato de los datos
- Relacional: Tablas en orígenes de datos relacionales
- Tamaño de datos
- Cualquier tamaño
- Cómo preparar datos, analizar datos o crear modelos
- Importe activos de datos del catálogo gobernado al proyecto.
- Cree definiciones de trabajo de flujo de enmascaramiento para especificar qué datos se deben enmascarar con las reglas de protección de datos.
- Opcionalmente, cree un subconjunto de datos para reducir el tamaño de los datos copiados.
- Ejecute los trabajos de flujo de enmascaramiento para cargar las copias enmascaradas en conexiones de base de datos de destino.
- Cómo empezar
- Asegúrese de que los pasos de requisito previo en IBM Knowledge Catalog se hayan completado. Para privatizar los datos, realice una de las siguientes tareas:
- Hacer clic Nuevo recurso > Copiar y enmascarar datos.
- Pulse en las opciones de menú de los activos de datos individuales para enmascarar directamente ese activo.
Vea un vídeo sobre cómo crear un flujo de enmascaramiento
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Interconexiones de orquestación
Utilice el editor de lienzo de interconexiones para crear un flujo para preparar, visualizar y analizar datos, o para crear y entrenar un modelo.
- Formato de los datos
- Cualquiera
- Tamaño de datos
- Cualquiera
- Cómo preparar datos, analizar datos o crear modelos
- Utilice una variedad de nodos que contengan cada uno sus propios registros.
- Incorpore cuadernos en el flujo para ejecutar cualquier Python o código R.
- Trabaje con cualquier tipo de datos en la forma que desee.
- Planifique las ejecuciones del flujo.
- Importe datos de la PVC montada, el proyecto o ingiera datos de Github.
- Cree el componente personalizado con un código Python .
- Condicionalice las interconexiones para supervisar la calidad de los datos como desee.
- Utilice webhook para enviar correos electrónicos o mensajes para mantenerse al día sobre el estado de su flujo.
- Cómo empezar
- Para crear una nueva canalización, haga clic en Nuevo activo > Automatizar el ciclo de vida del modelo .
- Más información
- Documentación sobre Orchestration Pipelines
- Vídeos sobre Orchestration Pipelines
Vea un vídeo para saber cómo crear una canalización
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Visualizaciones de datos
Utilice las visualizaciones de datos para descubrir información a partir de sus datos. Al explorar datos desde diferentes perspectivas con visualizaciones, puede identificar patrones, conexiones y relaciones dentro de esos datos y comprender rápidamente grandes cantidades de información.
- Formato de los datos
- Tabular: archivos Avro, CSV, JSON, Parquet, TSV, SAV, Microsoft Excel .xls y .xlsx, SAS, archivos de texto delimitados y datos conectados. Para obtener más información sobre los orígenes de datos soportados, consulte Conectores.
- Tamaño de datos
- Sin límite
- Cómo empezar
- Para crear una visualización, pulse Activo de datos en la lista de tipos de activos del proyecto y seleccione un activo de datos. Haga clic en la pestaña Visualización y elija un tipo de gráfico.
- Más información
- Visualice sus datos
Tema padre: Proyectos