Go back to the English version of the documentation“二阶聚类”节点
TwoStep 集群节点 (SPSS Modeler)
Last updated: 2024年11月22日
“二阶聚类”节点提供一种形式的聚类分析。 它可以在您最初不知道存在哪些组时,将数据集聚类为不同的组。 与 Kohonen 节点和 K-Means 节点一样,“二阶聚类”模型也不使用目标字段。 二阶聚类试图揭示输入字段集的模式,而不是预测结果。 对记录进行分组,以使一个组或聚类中的记录彼此相似,而不同组中的记录则互不相同。
二阶聚类是一种分两步进行聚类的方法。 第一步对数据进行一次遍历,在这个过程中,将原始输入数据压缩为一组容易处理的子聚类。 第二步采用分层聚类方法,将这些子聚类逐渐合并成越来越大的聚类,在此过程中无需再次遍历数据。 分层聚类的优点在于不需要事先选择聚类数。 许多分层聚类方法一开始将单个的记录作为最初的聚类,然后递归合并这些记录以生成更大的聚类。 虽然此类方法常因数据量巨大而失败,但二阶聚类的初始预聚类会使分层聚类的速度非常快,即使数据集巨大也是如此。
注: 生成的模型在一定程度上取决于训练数据的顺序。 重排数据顺序并重建模型有可能会生成不同的最终聚类模型。
需求。 要训练 TwoStep 聚类模型,您需要一个或多个角色设置为 Input
的字段。 将忽略角色设置为 Target
, Both
或 None
的字段。 二阶聚类算法不处理缺失值。 构建模型时,将会忽略任何输入字段中包含空白值的记录。
强度。 二阶聚类可以处理混合字段类型,并能高效处理大型数据集。 它还能检验多个聚类解并选择其中最佳的解,因此您开始时不必知道应有多少个聚类。 二阶聚类可以设置为自动排除离群值,或者排除可能对结果造成损害的极端异常观测值。