Cloud Pak for Data as a Service 的核心服务为在准备、分析和建模数据方面的各个经验级别的用户(从初学者到专家)提供各种工具。 适合您的工具取决于您拥有的数据类型,计划执行的任务以及所需的自动化量。
要查看您在项目中使用的工具以及这些工具需要的服务,请打开工具和服务映射。
要选择适当的工具,请考虑以下因素。
具有的数据类型
- 定界文件中的表格数据或远程数据源中的关系数据
- 图像文件
- 文档中的文本 (非结构化) 数据
需要执行的任务类型
- 准备数据:清理、修整、可视化、组织和验证数据。
- 分析数据:识别数据中的模式和关系,并显示洞察。
- 构建模型:构建、训练、测试和部署模型,以作出预测或优化决策。
所需的自动化程度
- 代码编辑器工具: 用于在 Python 或 R 中编写代码,所有这些工具都适用于 Spark。
- 图形构建器工具: 在构建器上使用菜单和拖放功能以直观地编程。
- 自动化构建器工具: 用于配置需要有限用户输入的自动化任务。
查找适当的工具:
表格数据或关系数据工具
表格数据或关系数据工具(按任务划分):
工具 | 工具类型 | 准备数据 | 分析数据 | 构建模型 |
---|---|---|---|---|
Jupyter 笔记本编辑器 | 代码编辑器 | ✓ | ✓ | ✓ |
Federated Learning | 代码编辑器 | ✓ | ||
RStudio | 代码编辑器 | ✓ | ✓ | ✓ |
Data Refinery | 图形构建器 | ✓ | ✓ | |
屏蔽流 | 自动化构建器 | ✓ | ||
Data Virtualization | 图形构建器 | ✓ | ||
DataStage | 图形构建器 | ✓ | ||
Data Replication | 图形构建器 | ✓ | ||
SPSS Modeler | 图形构建器 | ✓ | ✓ | ✓ |
Decision Optimization 模型构建器 | 图形构建器和代码编辑器 | ✓ | ✓ | |
AutoAI | 自动化构建器 | ✓ | ✓ | |
Metadata import | 自动化构建器 | ✓ | ||
元数据增补 | 自动化构建器 | ✓ | ✓ | |
数据质量规则 | 自动化构建器和代码编辑器 | ✓ | ||
IBM Match 360 with Watson (Beta) | 自动化构建器 | ✓ | ||
编排管道 | 图形构建器 | ✓ | ✓ | ✓ |
文本数据工具
用于构建使用文本数据的模型的工具:
工具 | 代码编辑器 | 图形构建器 | 自动化构建器 |
---|---|---|---|
Jupyter 笔记本编辑器 | ✓ | ||
RStudio | ✓ | ||
SPSS Modeler | ✓ | ||
编排管道 | ✓ |
图像数据工具
用于构建对图像进行分类的模型的工具:
工具 | 代码编辑器 | 图形构建器 | 自动化构建器 |
---|---|---|---|
Jupyter 笔记本编辑器 | ✓ | ||
RStudio | ✓ | ||
编排管道 | ✓ |
访问工具
要使用工具,必须创建特定于该工具的资产,或者打开该工具的现有资产。 要创建资产,请单击 新建资产 或 导入资产 ,然后选择所需的资产类型。 下表显示要为每个工具选择的资产类型。
要使用此工具 | 请选择此资产类型 |
---|---|
Jupyter 笔记本编辑器 | Jupyter Notebook 编辑器 |
Data Refinery | Data Refinery 流程 |
屏蔽流程 | 屏蔽流程 |
DataStage | DataStage 流程 |
SPSS Modeler | 建模器流 |
Decision Optimization 模型构建器 | Decision Optimization |
AutoAI | AutoAI 试验 |
Federated Learning | 联合学习试验 |
Metadata import | Metadata import |
元数据增补 | 元数据扩充 |
数据质量规则 | 数据质量规则 |
IBM Match 360 with Watson (Beta) | 主数据配置 |
要使用 RStudio编辑笔记本,请单击 启动 IDE> RStudio。
Jupyter Notebook 编辑器
使用 Jupyter Notebook 编辑器来创建 Notebook,您可在其中运行代码,以准备、可视化和分析数据,或者构建和训练模型。
- 必需的服务
- watsonx.ai工作室
- 数据格式
- 任何
- 数据大小
- 任何
- 如何准备数据、分析数据或构建模型
- 使用 Python 或 R 编写代码,同时使用 Spark。
- 在代码中随附富文本和媒体。
- 以任意方式处理任何类型的数据。
- 使用预安装内容或者安装其他开放式源代码和 IBM 库与包。
- 调度代码的运行
- 从文件, URL 或资源中心导入 Notebook。
- 在外部共享 Notebook 的只读副本。
- 入门
- 要创建笔记本,请单击新资产 > 使用数据和模型Python或 R 笔记本。
- 了解更多
- 有关 Notebook 的文档
- 有关 Notebook 的视频
- 样本 Notebook
观看视频学习Jupyter笔记本基础知识
本视频提供了学习本文档中的概念和任务的直观方法。
Data Refinery
使用 Data Refinery 可以通过图形流程编辑器来准备表格数据,以及将其可视化。 您可创建并运行 Data Refinery 流程,它是针对数据执行的一组有序操作。
- 必需的服务
- watsonx.aiStudio 或IBM Knowledge Catalog
- 数据格式
- 表格 :Avro , CSV , JSON , Microsoft Excel (xls 和 xlsx 格式)。 仅第一个工作表,连接和已连接的数据资产除外。) 具有 "sas7bdat" 扩展 (只读) , TSV (只读) 或定界文本数据资产的 Parquet , SAS
- 关系:关系数据源中的表
- 数据大小
- 任何
- 如何准备数据
- 通过 60 多项操作清理、修整、组织数据。
- 将优化的数据另存为新数据集或更新原始数据。
- 对数据进行概要分析以验证该数据。
- 使用交互式模板通过代码操作、函数和逻辑运算符来处理数据。
- 调度对数据的循环操作。
- 如何分析数据
- 标识多可视化图表内数据中的模式、连接和关系。
- 入门
- 要创建 Data Refinery 流,请单击 新建资产> 准备和可视化数据。
- 了解更多
- 有关 Data Refinery 的文档
- 有关 Data Refinery 的视频
观看视频了解如何完善数据
本视频提供了学习本文档中的概念和任务的直观方法。
Data Replication
使用 Data Replication 来集成和同步数据。 Data Replication提供近乎实时的数据传输,对数据源的影响较小。
- 必需服务
Data Replication
- 相关服务
IBM Knowledge Catalog
- 数据格式
Data Replication可与选定类型的数据源和格式进行连接。 有关详细信息,请参阅支持的Data Replication连接。
- 凭证
Data Replication使用您的IBM Cloud凭证连接到服务。
- 入门
要在项目中启动数据复制,请单击新资产 > 复制数据。
- 了解更多
观看视频,了解如何复制数据
本视频提供了学习本文档中的概念和任务的直观方法。
Data Virtualization
使用 Data Virtualization 将多个数据源连接到数据源或数据库的单个自平衡集合。
- 数据格式
- 关系:关系数据源中的表
- 数据大小
- 任何
- 如何准备数据
- 连接到多个数据源。
- 创建虚拟表。
- 入门
- 要创建虚拟表,请单击数据>Data virtualization。 从服务菜单中,单击 虚拟化 > 虚拟化 > 表。
- 了解更多
- Data Virtualization相关文档
- 有关Data Virtualization视频
观看视频了解如何虚拟化数据
本视频提供了学习本文档中的概念和任务的直观方法。
DataStage
使用 DataStage 可以通过图形流程编辑器来准备表格数据,以及将其可视化。 您可创建并运行 DataStage 流程,它是针对数据执行的一组有序操作。
- 必需服务
- DataStage
- 数据格式
- 表格:Avro、CSV、JSON、Parquet、TSV(仅限读取)或定界文本文件
- 关系:关系数据源中的表
- 数据大小
- 任何
- 如何准备数据
- 设计图形式数据集成流程,以生成要在高性能 DataStage 并行引擎上运行的编排代码。
- 执行操作,例如:连接、漏斗、校验和、合并、修改、移除重复项和排序。
- 入门
- 要创建一个DataStage流动,点击新资产 > 转换和整合数据。 这DataStage瓷砖在图形构建器部分。
- 了解更多
- 有关DataStage的文档
- 有关DataStage的视频
观看视频,了解如何转换数据
本视频提供了学习本文档中的概念和任务的直观方法。
SPSS Modeler
使用 SPSS Modeler 来创建流,以在图形构建器上使用流编辑器来准备数据以及构建和训练模型。
- 必需的服务
- watsonx.ai工作室
- 数据格式
- 关系:关系数据源中的表
- 表格:Excel 文件(.xls 或 .xlsx)、CSV 文件或 SPSS Statistics 文件 (.sav)
- 文本:在受支持的关系表或文件中
- 数据大小
- 任何
- 如何准备数据
- 使用自动数据准备功能。
- 编写 SQL 语句以处理数据。
- 清理、修整、采样、排序和派生数据。
- 如何分析数据
- 使用 40 多个图形直观呈现数据。
- 识别文本字段的自然语言。
- 如何构建模型
- 构建预测模型。
- 从 40 多种建模算法中进行选择。
- 使用自动建模功能。
- 对时间序列或地理空间数据进行建模。
- 对文本数据进行分类。
- 识别文本数据中概念之间的关系。
- 入门
- 要创建一个SPSS Modeler流动,点击新资产 > 以可视化流程构建模型。
- 了解更多
- 有关 SPSS Modeler 的文档
- 有关SPSS Modeler的视频
观看视频,了解如何使用SPSS Modeler建立模型
本视频提供了学习本文档中的概念和任务的直观方法。
Decision Optimization 模型构建器
使用 Decision Optimization 在 Decision Optimization 建模器或 Jupyter Notebook 中构建和运行优化模型。
- 必需的服务
- watsonx.ai工作室
- 数据格式
- 表格:CSV 文件
- 数据大小
- 任何
- 如何准备数据
- 将相关数据导入到方案中并对其进行编辑。
- 如何构建模型
- 构建规定性 Decision Optimization 模型。
- 在 Python DOcplex、OPL 中或使用自然语言表达式创建、导入和编辑模型。
- 在 Notebook 中创建、导入和编辑模型。
- 如何求解模型
- 使用 CPLEX 引擎运行并求解 Decision Optimization 模型。
- 调查并比较多个方案的解法。
- 创建表、图表和说明以将一个或多个方案的数据和解法可视化。
- 入门
- 要创建一个Decision Optimization模型,点击新资产 > 解决优化问题,对于笔记本,单击新资产 > 使用数据和模型Python或 R 笔记本。
- 了解更多
- 有关 Decision Optimization 的文档
- 有关 Decision Optimization的视频
观看视频,了解如何构建Decision Optimization实验
本视频提供了学习本文档中的概念和任务的直观方法。
AutoAI 工具
使用 AutoAI 工具自动分析表格数据,并生成针对预测建模问题定制的候选模型管道。
- 必需的服务
- watsonx.ai运行时
- watsonx.ai工作室
- 数据格式
- 表格:CSV 文件
- 数据大小
- 取决于模型类型。 请参阅 AutoAI 概述 以获取详细信息。
- 如何准备数据
- 自动变换数据,例如插补缺失值,并将文本变换为标量值。
- 如何构建模型
- 训练二元分类、多类分类或回归模型。
- 查看显示 AutoAI 训练阶段序列的树形信息图。
- 生成按交叉验证分数排名的模型管道的排行榜。
- 将管道另存为模型。
- 入门
- 要创建一个AutoAI实验,点击新资产 > 自动构建机器学习模型。
- 了解更多
- 有关 AutoAI 的文档
- 关于AutoAI的视频
观看视频,了解如何构建AutoAI实验
本视频提供了学习本文档中的概念和任务的直观方法。
联合学习
使用 Federated Learning 工具可使用分布式数据来训练公共模型。 数据从不组合或共享,保持数据完整性,同时为所有参与方提供基于汇总数据的模型。
- 必需的服务
- watsonx.ai工作室
- watsonx.ai运行时
- 数据格式
- 任何
- 数据大小
- 任意大小
- 如何构建模型
- 选择训练框架。
- 配置公共模型。
- 配置用于训练公共模型的文件。
- 让远程参与方训练其数据。
- 部署公共模型。
- 入门
- 要创建实验,请点击新资产 > 在分布式数据上训练模型。
- 了解更多
- 有关 Federated Learning 的文档
- 关于 Federated Learning 的视频
观看视频,了解如何构建联合学习实验
本视频提供了学习本文档中的概念和任务的直观方法。
Metadata import
使用元数据导入工具可以自动发现数据资产的技术和流程元数据,并将其导入到项目或目录中。
- 必需服务
- IBM Knowledge Catalog
- 数据格式
- 任何
- 数据大小
- 任意大小
- 如何准备数据
- 通过连接将数据资产导入到数据源。
- 入门
- 要导入元数据,单击新资产 > 导入数据资产的元数据。
- 了解更多
- 有关元数据导入的文档
- 有关 IBM Knowledge Catalog的视频
观看视频了解如何导入资产元数据
本视频提供了学习本文档中的概念和任务的直观方法。
元数据扩充
使用元数据充实工具可自动对数据资产进行概要分析,以及分析项目中的数据质量。
- 必需服务
- IBM Knowledge Catalog
- 数据格式
- 关系和结构化: 关系数据源和非关系数据源中的表和文件
- 表格:Avro、CSV 或 Parquet 文件
- 数据大小
- 任意大小
- 如何准备和分析数据
- 概要分析和分析项目中的一组选定数据资产。
- 入门
- 要丰富数据,请点击新资产 > 使用元数据丰富数据资产。
- 了解更多
- 有关元数据充实的文档
- 有关 IBM Knowledge Catalog的视频
观看视频,了解如何丰富数据资产
本视频提供了学习本文档中的概念和任务的直观方法。
数据质量规则
使用数据质量工具来创建用于分析项目中数据质量的规则。
- 必需服务
- IBM Knowledge Catalog
- 数据格式
- 关系和结构化: 关系数据源和非关系数据源中的表和文件
- 表格:Avro、CSV 或 Parquet 文件
- 数据大小
- 任意大小
- 如何准备和分析数据
- 分析项目中所选数据资产集的质量。
- 入门
- 要创建数据质量规则,点击新资产 > 测量和监控数据质量。
- 了解更多
- 有关数据质量规则的文档
IBM Match 360 with Watson
使用 IBM Match 360 with Watson 创建代表客户数字孪生的主数据实体。 对数据进行建模和映射,然后运行匹配算法以创建主数据实体。 定制并调整匹配算法以满足组织的需求。
- 必需的服务
- IBM Match 360 with Watson IBM Knowledge Catalog
- 数据大小
- 最多 100 万条记录(针对 Beta Lite 套餐)
- 如何准备数据
- 对来自整个组织的源的数据进行建模和映射。
- 运行可定制的匹配算法以创建主数据实体。
- 查看和编辑主数据实体及其关联的记录。
- 入门
- 要创建一个IBMMatch 360配置资产,点击新资产 > 将数据整合到 360 度视图中。
- 了解更多
- 有关 IBM Match 360 with Watson 的文档
- 有关IBM Match 360的视频
观看视频了解如何使用IBM Match 360
本视频提供了学习本文档中的概念和任务的直观方法。
RStudio IDE
使用 RStudio IDE 通过编写 R 代码来分析数据或创建 Shiny 应用程序。
- 必需服务
- watsonx.ai工作室
- 数据格式
- 任何
- 数据大小
- 任意大小
- 如何准备数据、分析数据和构建模型
- 使用 R 编写代码。
- 创建 Shiny 应用程序。
- 使用开放式源代码库和包。
- 在代码中随附富文本和媒体。
- 准备数据。
- 直观地显示数据。
- 从数据中发现洞察。
- 使用开放式源代码库构建和训练模型。
- 在 Git 存储库中共享您的 Shiny 应用程序。
- 入门
- 要使用 RStudio ,请单击 启动 IDE > RStudio。
- 了解更多
- 有关 RStudio 的文档
- 有关 RStudio 的视频
观看视频,了解 RStudio IDE 的概况
本视频提供了学习本文档中的概念和任务的直观方法。
屏蔽流程
使用 "屏蔽" 流工具来准备目录中数据的屏蔽副本或屏蔽子集。 该工具会根据数据保护规则,使用高级屏蔽选项对数据进行去标识化处理。
- 必需服务
- IBM Knowledge Catalog
- 数据格式
- 关系:关系数据源中的表
- 数据大小
- 任意大小
- 如何准备数据、分析数据或构建模型
- 将数据资产从受管目录导入到项目。
- 创建屏蔽流程作业定义以指定要使用数据保护规则屏蔽的数据。
- (可选)设置数据子集以减少复制数据的大小。
- 运行屏蔽流程作业以将屏蔽的副本加载到目标数据库连接。
- 入门
- 确保已完成 IBM Knowledge Catalog 中的必备步骤。 要将数据私有化,请执行以下任务之一:
- 单击 New asset > 复制和屏蔽数据。
- 单击个别数据资产的菜单选项可直接屏蔽该资产。
观看视频,了解如何创建遮蔽流
本视频提供了学习本文档中的概念和任务的直观方法。
编排管道
使用 "管道" 画布编辑器来创建流,以准备,可视化和分析数据,或者构建和训练模型。
- 数据格式
- 任何
- 数据大小
- 任何
- 如何准备数据、分析数据或构建模型
- 使用各种节点,每个节点都包含自己的日志。
- 将 Notebook 合并到流中以运行任何 Python 或 R 代码。
- 以任意方式处理任何类型的数据。
- 调度流的运行。
- 从已安装的 PVC ,项目或从 Github 采集数据导入数据。
- 使用 Python 代码创建定制组件。
- 根据需要对管道进行条件化,以监视数据质量。
- 使用 Webhook 来发送电子邮件或消息,以保持最新的流状态。
- 入门
- 要创建新管道,请单击新资产 > 自动化模型生命周期。
- 了解更多
- 协调管道相关文档
- 关于协调管道的视频
观看视频了解如何创建管道
本视频提供了学习本文档中的概念和任务的直观方法。
数据可视化
使用数据可视化可从数据中发现洞察。 通过使用可视化从不同角度探索数据,您可以识别该数据中的模式,连接和关系,并快速了解大量信息。
- 数据格式
- 表格 :Avro , CSV , JSON , Parquet , TSV , SAV , Microsoft Excel .xls 和 .xlsx 文件, SAS ,定界文本文件和已连接数据。 有关受支持的数据源的更多信息,请参阅 连接器。
- 数据大小
- 无限制
- 入门
- 要创建可视化,请在项目中的资产类型列表中单击 数据资产 ,然后选择数据资产。 单击 "可视化"选项卡,选择图表类型。
- 了解更多
- 数据可视化
父主题: 项目