La regresión logística, también denominada regresión nomina, es una técnica estadística para clasificar los registros a partir de los valores de los campos de entrada. Es análoga a la regresión lineal pero utiliza un campo objetivo categórico en lugar de uno numérico. Se admiten tanto los modelos binomiales (para objetivos con dos categorías discretas) como los multinomiales (para objetivos con más de dos categorías).
La regresión logística trabaja creando un conjunto de ecuaciones que relacionan los valores de los campos de entrada con las probabilidades asociadas a cada una de las categorías de los campos de salida. Una vez generado el modelo, puede utilizarlo para estimar las probabilidades de nuevos datos. Para cada registro, se calcula una probabilidad de pertenencia a cada categoría posible de salida. La categoría objetivo con la probabilidad más alta se asigna como el valor de salida predicho para cada registro.
Ejemplo binomial. Un proveedor de telecomunicaciones está preocupado por el número de clientes que se están pasando a la competencia. Mediante los datos de uso de servicio puede crear un modelo binomial para predecir qué clientes tienen más probabilidad de contratar otro proveedor y personalizar las ofertas para retener el mayor número de clientes posible. Se utiliza un modelo binomial porque el destino tiene dos categorías distintas (probablemente para transferir o no).
Ejemplo multinomial. Un proveedor de telecomunicaciones ha segmentado su base de clientes por patrones de uso de servicio, categorizando los clientes en cuatro grupos. Utilizando datos demográficos para predecir la pertenencia a grupos, puede crear un modelo multinomial para clasificar los posibles clientes en grupos y, a continuación, personalizar las ofertas para clientes individuales.
Requisitos. Uno o más campos de entrada y exactamente un campo objetivo categórico con dos o más categorías. Para un modelo binomial, el objetivo debe tener un nivel de medición de Flag
. Para un modelo multinomial, el objetivo puede tener un nivel de medición de Flag
o de Nominal
con dos o más categorías. Los campos establecidos en Both
o None
se ignoran. Los tipos de los campos utilizados en el modelo deben estar completamente instanciados.
Puntos fuertes. Los modelos de regresión logística suelen ser bastante exactos. Pueden gestionar campos de entrada simbólicos y numéricos. Pueden proporcionar probabilidades predichas para todas las categorías objetivo, de forma que la "segunda mejor predicción" sea fácil de identificar. Los modelos logísticos son más eficaces cuando la pertenencia a grupos es un campo categórico verdadero; si la pertenencia a un grupo está basada en los valores de un campo de rango continuo (por ejemplo, "CI alto" frente a "CI bajo"), debería considerar la posibilidad de utilizar una regresión lineal para aprovechar la mayor riqueza de información que ofrece el rango completo de valores. Los modelos logísticos también pueden realizar la selección de campos automática, aunque otros métodos, como los modelos de árboles o la selección de características, pueden hacerlo de forma más rápida en conjuntos de datos grandes. Por último, ya que los modelos logísticos son bien conocidos por muchos analistas y analistas de datos, se pueden utilizar como línea de base con la que comparar otras técnicas de modelado.
Al procesar conjuntos grandes de datos, puede mejorar sensiblemente el rendimiento desactivando el contraste de razón de verosimilitud, una opción avanzada de los resultados.