Kohonen 网络是一种执行聚类的神经网络类型,也称为 knet 或自组织映射。 如果在开始时没有分组的相关信息,那么可使用此类型的网络将数据集聚类到有明显区别的不同分组。 对记录进行分组,以便组或聚类中的记录趋于相似,而不同组中的记录则有所差异。
基本单元为神经元,并且它们分为两层:输入层和输出层(也称为输出映射)。 所有输入神经元都和所有输出神经元相连接,这些连接有与其相关的强度或权重。 训练过程中,每个单元会与所有其他单元进行竞争以“赢得”每条记录。
输出映射是神经元的二维网络(单元之间无连接)。
输入数据会显示在输入层,相应值将传播到输出层。 响应最强的输出神经元将称为胜利者并且会成为输入的结果。
最初的权重随机产生。 如果某个单元赢得一条记录,那么其权重(与其附近单元的权重一起统称为近邻)将作调整以尽可能地与此条记录的预测变量值的模式相匹配。 显示所有输入记录,并且权重将相应更新。 将重复此过程,直到变化非常小为止。 当进行训练时,网格单元的权重将作调整从而形成聚类的一个二维“映射”(所以会有术语自组织映射)。
此网络训练完成后,相似的记录应在输出映射中紧密地聚集,差异很大的记录则应彼此远离。
与 "watsonx.ai Studio中的大多数学习方法不同,Kohonen 网络不使用目标字段。 这种没有目标字段的学习称为无监督学习。 Kohonen 网络试图揭示输入字段集中的模式,而不是预测结果。 通常,Kohonen 网络最终会形成几个汇总许多观测数据的单元(强单元),以及几个实际不对应任何观测数据的单元(弱单元)。 强单元(有时也包括网格中与其邻近的其他单元)代表可能的聚类中心。
Kohonen 网络的另一种用途是降维。 二维网格的空间特性可提供从 k
个原始预测变量到保留了原始预测变量中相似性关系的两个派生特征的映射。 在某些情况下,此方法的作用与因子分析或主成分分析的作用相同。
请注意,计算输出网格缺省大小的方法与较旧版本的 SPSS Modeler不同。 通常,此方法将生成更小的输出层,这些输出层训练起来更快且通用性更强。 如果您发现使用缺省大小得到的结果不理想,可以尝试在“专家”选项卡上增加输出网格的大小。
需求。 要训练 Kohonen 网络,您需要一个或多个角色设置为 Input
的字段。 将忽略角色设置为 Target
, Both
或 None
的字段。
强度。 您不需要关于组成员资格的数据即可构建 Kohonen 网络模型。 您甚至不需要知道要寻找的组的个数。 Kohonen 网络刚开始会有大量的单元,随着训练的进行,这些单元会向数据中的自然聚类集中。 可通过查看模型块中每个单元捕获的观测值数来识别强单元,进而了解适当的聚类数。