0 / 0
Go back to the English version of the documentation
选择工具
Last updated: 2024年11月26日
选择工具

Cloud Pak for Data as a Service 的核心服务为在准备、分析和建模数据方面的各个经验级别的用户(从初学者到专家)提供各种工具。 适合您的工具取决于您拥有的数据类型,计划执行的任务以及所需的自动化量。

要查看您在项目中使用的工具以及这些工具需要的服务,请打开工具和服务映射。

要选择适当的工具,请考虑以下因素。

具有的数据类型

  • 定界文件中的表格数据或远程数据源中的关系数据
  • 图像文件
  • 文档中的文本 (非结构化) 数据

需要执行的任务类型

  • 准备数据:清理、修整、可视化、组织和验证数据。
  • 分析数据:识别数据中的模式和关系,并显示洞察。
  • 构建模型:构建、训练、测试和部署模型,以作出预测或优化决策。

所需的自动化程度

  • 代码编辑器工具: 用于在 Python 或 R 中编写代码,所有这些工具都适用于 Spark。
  • 图形构建器工具: 在构建器上使用菜单和拖放功能以直观地编程。
  • 自动化构建器工具: 用于配置需要有限用户输入的自动化任务。

查找适当的工具:

表格数据或关系数据工具

表格数据或关系数据工具(按任务划分):

表格数据或关系数据工具
工具 工具类型 准备数据 分析数据 构建模型
Jupyter 笔记本编辑器 代码编辑器
Federated Learning 代码编辑器
RStudio 代码编辑器
Data Refinery 图形构建器
屏蔽流 自动化构建器
Data Virtualization 图形构建器
DataStage 图形构建器
Data Replication 图形构建器
SPSS Modeler 图形构建器
Decision Optimization 模型构建器 图形构建器和代码编辑器
AutoAI 自动化构建器
Metadata import 自动化构建器
元数据增补 自动化构建器
数据质量规则 自动化构建器和代码编辑器
IBM Match 360 with Watson (Beta) 自动化构建器
编排管道 图形构建器

文本数据工具

用于构建使用文本数据的模型的工具:

文本数据工具
工具 代码编辑器 图形构建器 自动化构建器
Jupyter 笔记本编辑器
RStudio
SPSS Modeler
编排管道

图像数据工具

用于构建对图像进行分类的模型的工具:

图像数据工具
工具 代码编辑器 图形构建器 自动化构建器
Jupyter 笔记本编辑器
RStudio
编排管道

访问工具

要使用工具,必须创建特定于该工具的资产,或者打开该工具的现有资产。 要创建资产,请单击 新建资产导入资产 ,然后选择所需的资产类型。 下表显示要为每个工具选择的资产类型。

工具到资产类型映射
要使用此工具 请选择此资产类型
Jupyter 笔记本编辑器 Jupyter Notebook 编辑器
Data Refinery Data Refinery 流程
屏蔽流程 屏蔽流程
DataStage DataStage 流程
SPSS Modeler 建模器流
Decision Optimization 模型构建器 Decision Optimization
AutoAI AutoAI 试验
Federated Learning 联合学习试验
Metadata import Metadata import
元数据增补 元数据扩充
数据质量规则 数据质量规则
IBM Match 360 with Watson (Beta) 主数据配置

要使用 RStudio编辑笔记本,请单击 启动 IDE> RStudio

Jupyter Notebook 编辑器

使用 Jupyter Notebook 编辑器来创建 Notebook,您可在其中运行代码,以准备、可视化和分析数据,或者构建和训练模型。

必需的服务
watsonx.ai工作室
数据格式
任何
数据大小
任何
如何准备数据、分析数据或构建模型
使用 Python 或 R 编写代码,同时使用 Spark。
在代码中随附富文本和媒体。
以任意方式处理任何类型的数据。
使用预安装内容或者安装其他开放式源代码和 IBM 库与包。
调度代码的运行
从文件, URL 或资源中心导入 Notebook。
在外部共享 Notebook 的只读副本。
入门
要创建笔记本,请单击新资产 > 使用数据和模型Python或 R 笔记本
了解更多
有关 Notebook 的文档
有关 Notebook 的视频
样本 Notebook

观看视频学习Jupyter笔记本基础知识

本视频提供了学习本文档中的概念和任务的直观方法。


Data Refinery

使用 Data Refinery 可以通过图形流程编辑器来准备表格数据,以及将其可视化。 您可创建并运行 Data Refinery 流程,它是针对数据执行的一组有序操作。

必需的服务
watsonx.aiStudio 或IBM Knowledge Catalog
数据格式
表格 :Avro , CSV , JSON , Microsoft Excel (xls 和 xlsx 格式)。 仅第一个工作表,连接和已连接的数据资产除外。) 具有 "sas7bdat" 扩展 (只读) , TSV (只读) 或定界文本数据资产的 Parquet , SAS
关系:关系数据源中的表
数据大小
任何
如何准备数据
通过 60 多项操作清理、修整、组织数据。
将优化的数据另存为新数据集或更新原始数据。
对数据进行概要分析以验证该数据。
使用交互式模板通过代码操作、函数和逻辑运算符来处理数据。
调度对数据的循环操作。
如何分析数据
标识多可视化图表内数据中的模式、连接和关系。
入门
要创建 Data Refinery 流,请单击 新建资产> 准备和可视化数据
了解更多
有关 Data Refinery 的文档
有关 Data Refinery 的视频

观看视频了解如何完善数据

本视频提供了学习本文档中的概念和任务的直观方法。


Data Replication

使用 Data Replication 来集成和同步数据。 Data Replication提供近乎实时的数据传输,对数据源的影响较小。

必需服务

Data Replication

相关服务

IBM Knowledge Catalog

数据格式

Data Replication可与选定类型的数据源和格式进行连接。 有关详细信息,请参阅支持的Data Replication连接

凭证

Data Replication使用您的IBM Cloud凭证连接到服务。

入门

要在项目中启动数据复制,请单击新资产 > 复制数据

了解更多

有关Data Replication的文档

有关Data Replication的视频


观看视频,了解如何复制数据

本视频提供了学习本文档中的概念和任务的直观方法。


Data Virtualization

使用 Data Virtualization 将多个数据源连接到数据源或数据库的单个自平衡集合。

数据格式
关系:关系数据源中的表
数据大小
任何
如何准备数据
连接到多个数据源。
创建虚拟表。
入门
要创建虚拟表,请单击数据>Data virtualization。 从服务菜单中,单击 虚拟化 > 虚拟化 >
了解更多
Data Virtualization相关文档
有关Data Virtualization视频

观看视频了解如何虚拟化数据

本视频提供了学习本文档中的概念和任务的直观方法。


DataStage

使用 DataStage 可以通过图形流程编辑器来准备表格数据,以及将其可视化。 您可创建并运行 DataStage 流程,它是针对数据执行的一组有序操作。

必需服务
DataStage
数据格式
表格:Avro、CSV、JSON、Parquet、TSV(仅限读取)或定界文本文件
关系:关系数据源中的表
数据大小
任何
如何准备数据
设计图形式数据集成流程,以生成要在高性能 DataStage 并行引擎上运行的编排代码。
执行操作,例如:连接、漏斗、校验和、合并、修改、移除重复项和排序。
入门
要创建一个DataStage流动,点击新资产 > 转换和整合数据。 这DataStage瓷砖在图形构建器部分。
了解更多
有关DataStage的文档
有关DataStage的视频

观看视频,了解如何转换数据

本视频提供了学习本文档中的概念和任务的直观方法。


SPSS Modeler

使用 SPSS Modeler 来创建流,以在图形构建器上使用流编辑器来准备数据以及构建和训练模型。

必需的服务
watsonx.ai工作室
数据格式
关系:关系数据源中的表
表格:Excel 文件(.xls 或 .xlsx)、CSV 文件或 SPSS Statistics 文件 (.sav)
文本:在受支持的关系表或文件中
数据大小
任何
如何准备数据
使用自动数据准备功能。
编写 SQL 语句以处理数据。
清理、修整、采样、排序和派生数据。
如何分析数据
使用 40 多个图形直观呈现数据。
识别文本字段的自然语言。
如何构建模型
构建预测模型。
从 40 多种建模算法中进行选择。
使用自动建模功能。
对时间序列或地理空间数据进行建模。
对文本数据进行分类。
识别文本数据中概念之间的关系。
入门
要创建一个SPSS Modeler流动,点击新资产 > 以可视化流程构建模型
了解更多
有关 SPSS Modeler 的文档
有关SPSS Modeler的视频

观看视频,了解如何使用SPSS Modeler建立模型

本视频提供了学习本文档中的概念和任务的直观方法。


Decision Optimization 模型构建器

使用 Decision Optimization 在 Decision Optimization 建模器或 Jupyter Notebook 中构建和运行优化模型。

必需的服务
watsonx.ai工作室
数据格式
表格:CSV 文件
数据大小
任何
如何准备数据
将相关数据导入到方案中并对其进行编辑。
如何构建模型
构建规定性 Decision Optimization 模型。
在 Python DOcplex、OPL 中或使用自然语言表达式创建、导入和编辑模型。
在 Notebook 中创建、导入和编辑模型。
如何求解模型
使用 CPLEX 引擎运行并求解 Decision Optimization 模型。
调查并比较多个方案的解法。
创建表、图表和说明以将一个或多个方案的数据和解法可视化。
入门
要创建一个Decision Optimization模型,点击新资产 > 解决优化问题,对于笔记本,单击新资产 > 使用数据和模型Python或 R 笔记本
了解更多
有关 Decision Optimization 的文档
有关 Decision Optimization的视频

观看视频,了解如何构建Decision Optimization实验

本视频提供了学习本文档中的概念和任务的直观方法。


AutoAI 工具

使用 AutoAI 工具自动分析表格数据,并生成针对预测建模问题定制的候选模型管道。

必需的服务
watsonx.ai运行时
watsonx.ai工作室
数据格式
表格:CSV 文件
数据大小
取决于模型类型。 请参阅 AutoAI 概述 以获取详细信息。
如何准备数据
自动变换数据,例如插补缺失值,并将文本变换为标量值。
如何构建模型
训练二元分类、多类分类或回归模型。
查看显示 AutoAI 训练阶段序列的树形信息图。
生成按交叉验证分数排名的模型管道的排行榜。
将管道另存为模型。
入门
要创建一个AutoAI实验,点击新资产 > 自动构建机器学习模型
了解更多
有关 AutoAI 的文档
关于AutoAI的视频

观看视频,了解如何构建AutoAI实验

本视频提供了学习本文档中的概念和任务的直观方法。


联合学习

使用 Federated Learning 工具可使用分布式数据来训练公共模型。 数据从不组合或共享,保持数据完整性,同时为所有参与方提供基于汇总数据的模型。

必需的服务
watsonx.ai工作室
watsonx.ai运行时
数据格式
任何
数据大小
任意大小
如何构建模型
选择训练框架。
配置公共模型。
配置用于训练公共模型的文件。
让远程参与方训练其数据。
部署公共模型。
入门
要创建实验,请点击新资产 > 在分布式数据上训练模型
了解更多
有关 Federated Learning 的文档
关于 Federated Learning 的视频

观看视频,了解如何构建联合学习实验

本视频提供了学习本文档中的概念和任务的直观方法。


Metadata import

使用元数据导入工具可以自动发现数据资产的技术和流程元数据,并将其导入到项目或目录中。

必需服务
IBM Knowledge Catalog
数据格式
任何
数据大小
任意大小
如何准备数据
通过连接将数据资产导入到数据源。
入门
要导入元数据,单击新资产 > 导入数据资产的元数据
了解更多
有关元数据导入的文档
有关 IBM Knowledge Catalog的视频

观看视频了解如何导入资产元数据

本视频提供了学习本文档中的概念和任务的直观方法。


元数据扩充

使用元数据充实工具可自动对数据资产进行概要分析,以及分析项目中的数据质量。

必需服务
IBM Knowledge Catalog
数据格式
关系和结构化: 关系数据源和非关系数据源中的表和文件
表格:Avro、CSV 或 Parquet 文件
数据大小
任意大小
如何准备和分析数据
概要分析和分析项目中的一组选定数据资产。
入门
要丰富数据,请点击新资产 > 使用元数据丰富数据资产
了解更多
有关元数据充实的文档
有关 IBM Knowledge Catalog的视频

观看视频,了解如何丰富数据资产

本视频提供了学习本文档中的概念和任务的直观方法。


数据质量规则

使用数据质量工具来创建用于分析项目中数据质量的规则。

必需服务
IBM Knowledge Catalog
数据格式
关系和结构化: 关系数据源和非关系数据源中的表和文件
表格:Avro、CSV 或 Parquet 文件
数据大小
任意大小
如何准备和分析数据
分析项目中所选数据资产集的质量。
入门
要创建数据质量规则,点击新资产 > 测量和监控数据质量
了解更多
有关数据质量规则的文档

IBM Match 360 with Watson

使用 IBM Match 360 with Watson 创建代表客户数字孪生的主数据实体。 对数据进行建模和映射,然后运行匹配算法以创建主数据实体。 定制并调整匹配算法以满足组织的需求。

必需的服务
IBM Match 360 with Watson IBM Knowledge Catalog
数据大小
最多 100 万条记录(针对 Beta Lite 套餐)
如何准备数据
对来自整个组织的源的数据进行建模和映射。
运行可定制的匹配算法以创建主数据实体。
查看和编辑主数据实体及其关联的记录。
入门
要创建一个IBMMatch 360配置资产,点击新资产 > 将数据整合到 360 度视图中
了解更多
有关 IBM Match 360 with Watson 的文档
有关IBM Match 360的视频

观看视频了解如何使用IBM Match 360

本视频提供了学习本文档中的概念和任务的直观方法。


RStudio IDE

使用 RStudio IDE 通过编写 R 代码来分析数据或创建 Shiny 应用程序。

必需服务
watsonx.ai工作室
数据格式
任何
数据大小
任意大小
如何准备数据、分析数据和构建模型
使用 R 编写代码。
创建 Shiny 应用程序。
使用开放式源代码库和包。
在代码中随附富文本和媒体。
准备数据。
直观地显示数据。
从数据中发现洞察。
使用开放式源代码库构建和训练模型。
在 Git 存储库中共享您的 Shiny 应用程序。
入门
要使用 RStudio ,请单击 启动 IDE > RStudio
了解更多
有关 RStudio 的文档
有关 RStudio 的视频

观看视频,了解 RStudio IDE 的概况

本视频提供了学习本文档中的概念和任务的直观方法。


屏蔽流程

使用 "屏蔽" 流工具来准备目录中数据的屏蔽副本或屏蔽子集。 该工具会根据数据保护规则,使用高级屏蔽选项对数据进行去标识化处理。

必需服务
IBM Knowledge Catalog
数据格式
关系:关系数据源中的表
数据大小
任意大小
如何准备数据、分析数据或构建模型
将数据资产从受管目录导入到项目。
创建屏蔽流程作业定义以指定要使用数据保护规则屏蔽的数据。
(可选)设置数据子集以减少复制数据的大小。
运行屏蔽流程作业以将屏蔽的副本加载到目标数据库连接。
入门
确保已完成 IBM Knowledge Catalog 中的必备步骤。 要将数据私有化,请执行以下任务之一:
  • 单击 New asset > 复制和屏蔽数据
  • 单击个别数据资产的菜单选项可直接屏蔽该资产。
了解更多
有关屏蔽数据的文档
有关 IBM Knowledge Catalog的视频

观看视频,了解如何创建遮蔽流

本视频提供了学习本文档中的概念和任务的直观方法。


编排管道

使用 "管道" 画布编辑器来创建流,以准备,可视化和分析数据,或者构建和训练模型。

数据格式
任何
数据大小
任何
如何准备数据、分析数据或构建模型
使用各种节点,每个节点都包含自己的日志。
将 Notebook 合并到流中以运行任何 Python 或 R 代码。
以任意方式处理任何类型的数据。
调度流的运行。
从已安装的 PVC ,项目或从 Github 采集数据导入数据。
使用 Python 代码创建定制组件。
根据需要对管道进行条件化,以监视数据质量。
使用 Webhook 来发送电子邮件或消息,以保持最新的流状态。
入门
要创建新管道,请单击新资产 > 自动化模型生命周期
了解更多
协调管道相关文档
关于协调管道的视频

观看视频了解如何创建管道

本视频提供了学习本文档中的概念和任务的直观方法。


数据可视化

使用数据可视化可从数据中发现洞察。 通过使用可视化从不同角度探索数据,您可以识别该数据中的模式,连接和关系,并快速了解大量信息。

数据格式
表格 :Avro , CSV , JSON , Parquet , TSV , SAV , Microsoft Excel .xls 和 .xlsx 文件, SAS ,定界文本文件和已连接数据。 有关受支持的数据源的更多信息,请参阅 连接器
数据大小
无限制
入门
要创建可视化,请在项目中的资产类型列表中单击 数据资产 ,然后选择数据资产。 单击 "可视化"选项卡,选择图表类型。
了解更多
数据可视化

父主题: 项目

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more