Logistic 回归(也称为名义回归)是一种统计技术,用于根据输入字段的值对记录进行分类。 这种技术与线性回归类似,但用分类目标字段代替了数字字段。 同时支持二项模型(用于具有两种离散类别的目标)和多项模型(用于具有两种以上类别的目标)。
Logistic 回归的工作原理是构建一组方程式,使输入字段值与每个输入字段类别所关联的概率相关。 生成模型后,可以使用该模型来估算新数据的概率。 对于每条记录,将计算每种可能输出类别的成员资格概率。 具有最高概率的目标类别将被指定为该记录的预测输出值。
二项式示例。 某个电信服务提供商关心流失到竞争对手那里的客户数。 使用服务利用率数据,可以创建二项模型以预测哪些客户有可能转向其他提供商,并定制服务以保留尽可能多的客户。 由于目标具有两个不同的类别(可能转移或不转移),因此使用了二项模型。
多项示例。 电信提供商按照服务用途模式划分客户群,将客户分类成四组。 通过使用人口统计数据来预测组成员资格,您可以创建多项模型,以将潜在客户归入不同的组,然后为个别客户定制产品。
需求。 一个或多个输入字段和唯一一个具有两个或多个类别的分类目标字段。 对于二项式模型,目标的测量级别必须为 Flag
。 对于多项式模型,目标可以具有测量级别 Flag
或具有两个或多个类别的 Nominal
。 将忽略设置为 Both
或 None
的字段。 必须对模型中使用的字段的类型完全实例化。
强度。 通常,Logistic 回归模型非常准确。 它们可处理符号和数字类型的输入字段。 它们可以给出所有目标类别的预测概率,从而能够轻松识别出第二最佳推测值。 当组成员资格是真正分类字段时,Logistic 模型最为有效;如果组成员资格基于连续范围字段的值(例如,高 IQ 与低 IQ),那么应考虑使用线性回归,以利用整个范围的值所提供的更丰富的信息。 Logistic 模型还可以执行自动字段选择,但其他方法(例如树模型或特征选择)在对大型数据集执行此操作时可能速度更快。 最后,由于 Logistic 模型被很多分析人员和数据挖掘人员所熟知,因此他们可能会将其用作比较其他建模技术的基准。
处理大型数据集时,可以禁用高级输出选项似然比检验,从而显著提高性能。