在开始使用 SPSS Modeler 挖掘数据和建立模型之前,您需要准备好数据。 准备数据意味着要花时间了解数据,并对数据进行处理,以便在数据挖掘中优化使用。
数据的质量可以决定模型的质量。 准备数据可确保您的数据干净整洁,随时可用于分析。
SPSS Modeler 是围绕跨行业数据挖掘标准流程 (CRISP-DM) 方法构建的。 它分为以下几个阶段
- 业务理解
- 数据理解
- 数据准备
- 建模
- 评估
- 部署
前三个阶段是收集、评估和准备数据的阶段。 其中一些工作可在 SPSS Modeler 中完成,但这些阶段的部分工作甚至在使用 SPSS Modeler 之前就已完成。
业务理解
在开始使用 SPSS Modeler 之前,必须尽可能深入了解数据挖掘的业务目标。 例如,了解业务视角,以确定痛点、项目要求、数据挖掘的业务目标,以及数据挖掘如何提供有用信息来解决业务问题。
这一阶段的数据收集和准备工作是在 SPSS Modeler 之外进行的。 但这项工作可以确定哪些数据需要收集,哪些数据值得重点关注。
数据理解
了解数据包括评估数据和探索数据,以确定数据的质量。 利用数据可视化、汇总统计和相关分析等技术,花时间了解数据结构、关系和模式。 这一步骤对于避免数据准备过程中出现意外问题至关重要。
SPSS Modeler 有一个 " 审计 " 节点,您可以用它来对数据进行全面的初步检查。 它可以生成汇总统计、直方图、箱形图、条形图、饼图等信息。 这些信息有助于初步了解数据。 它还能生成有关异常值、极值和缺失值的信息。
如果您可以访问 Cloud Pak for Data 上的这些其他服务,它们也会很有用;
- Data Refinery
- 您可以使用 Data Refinery 来了解数据并将其可视化。
- MANTA Automated Data Lineage
- 您可以使用 MANTA Automated Data Lineage 追踪和查找数据来源。
- RStudio®
- RStudio 有助于在 R 中运行命令来探索数据。
数据准备
数据准备是数据挖掘最重要的部分之一,它可能是整个项目所需的大量工作。 在早期的业务理解和数据理解阶段投入精力,可以最大限度地减少这些工作,但仍需要花费精力准备和打包数据,以便进行挖掘。
通过以下活动来准备数据。 需要开展这些活动,以确保数据准备充分、干净整洁并可用于分析。
- 数据清理
- 这对处理缺失值、删除重复内容和纠正格式问题至关重要。
- 数据转型
- 对数据进行标准化和规范化处理,以确保一致性并减少噪音。 这些步骤可能包括缩放、Z 值归一化或单次编码。
- 数据缩减
- 通过选择最相关的特征来降低数据的维度。 您可以使用主成分分析 (PCA)、线性判别分析 (LDA) 或 t 分布随机邻域嵌入 (t-SNE) 等技术。
- 数据集成
- 合并不同来源的数据,创建更全面的数据视图。 您可能需要连接表格、合并数据集或使用数据融合技术。
- 数据验证
- 验证数据,确保数据准确可靠。 您可以检查异常值、评估变异性或将数据与外部来源进行比较。
- 数据存储
- 以安全、可访问和可复制的方式存储数据。 您可以使用数据库、数据仓库或云存储解决方案来存储数据。
SPSS Modeler 有几个节点可用于这些数据准备活动。 您可以结合使用记录操作节点和字段操作节点来创建准备数据的流程。
如果您可以访问以下服务,它们也可用于准备数据。
- Data Refinery
- 您可以使用 Data Refinery 清理和转换数据,而无需编程技能。
- DataStage
- 您可以使用 DataStage 进行数据集成,并开发处理和转换数据的流程。
- IBM® Knowledge Catalog
- 您可以使用 IBM Knowledge Catalog 分析和改进数据质量,也可以使用它为数据资产分配分类、数据类别和业务术语
- RStudio
- 您可以使用 RStudio 在 R 中运行命令来探索数据。
即使数据不是他们自己的,用户也应执行相同的活动来了解这些数据。