异常检测模型用于识别数据中的离群值或异常观测值。 与其他建模方法存储异常观测值的相关规则不同,异常检测模型会存储有关正常行为方式的信息。 因此,即使在离群值不符合任何已知模式的情况下,异常检测模型也能识别这些值,在新模式可能不断涌现的应用场合(例如,欺诈检测),该模型尤其有用。 异常检测是一种不受监督的方法,这意味着,它不需要使用包含已知欺诈观测值的训练数据集来作为起始点。
识别离群值的传统方法通常是一次检查一个或两个变量,而异常检测可以检查大量字段,以识别相似记录所属的聚类或对等组。 然后,可以将每条记录与其对等组中的其他记录作比较,以识别可能的异常值。 观测值距离正态中心越远,就越有可能是异常观测值。 例如,该算法可能会将记录聚集到三个不同的聚类,并标记那些距离任何一个聚类的中心较远的记录。
每条记录都获分配异常指数,该指数是组偏差指数与该观测值所属聚类中平均值的比率。 该指数的值越大,表明该观测值与平均值的偏差越大。 通常情况下,异常指数值小于 1 甚至小于 1.5 的观测值不会视为异常值,因为该偏差与平均值大致相同或者只是略大。 但是,指数值大于 2 的观测值很有可能是异常观测值,因为该偏差至少是平均值的两倍。
异常检测是一种探索性方法,旨在快速检测应该接受进一步分析的异常观测值或记录。 这些观测值应视为疑似异常值,在经过进一步检查后,可以证明它们是或不是真正的异常值。 您可能会发现某条记录完全有效,但无法选择将其从数据中筛选出来用于模型构建。 或者,如果该算法反复检测到假异常值,那么可能表示数据收集过程中存在错误或假象。
请注意,异常检测并不考虑任何特定的目标(相依)字段,也不考虑这些字段是否与您所尝试预测的模式相关,只是通过以模型中一组选定字段为基础的聚类分析来识别异常记录或观测值。 由于上述原因,您可能想将异常检测与特征选择或其他字段筛选和排秩方法结合使用。 例如,您可使用特征选择来识别与某个特定目标相关的最重要字段,然后使用异常检测来找出对于这些字段而言最不寻常的记录。 (另一种方法是构建一个决策树模型,然后找出所有误分类记录,将其视为潜在的异常记录。 但是,这种方法很难大规模地复制和自动化。)
示例。 对农业发展补贴进行筛选以确定是否存在可能的欺诈个案时,可以通过异常检测来发现有悖于标准值的偏差,以突出显示值得进一步调查的异常记录。 特别值得关注的是那些相对于农场类型和规模而言,似乎申请过多(或过少)补助金的补贴申请。
需求。 一个或多个输入字段。 请注意,只有使用源节点或“类型”节点将角色设置为输入的字段才能用作输入。 目标字段(角色设置为目标或两者)将被忽略。
强度。 通过标记不符合已知规则集(而不是符合已知规则集)的观测值,异常检测模型可以识别异常观测值,即使这些观测值不符合先前已知的模式也是如此。 与特征选择结合使用时,异常检测可用于筛选大量数据,以便相对快速地识别最需要关注的记录。