El nodo Autonumérico calcula y compara los modelos de resultados de rango numérico continuo utilizando varios métodos diferentes, permitiéndole probar una gran variedad de planteamientos en una única ejecución de modelado. Puede seleccionar los algoritmos que se utilizarán y experimentar con múltiples combinaciones de opciones. Por ejemplo, puede predecir valores de viviendas utilizando los modelos Red neuronal, Regresión lineal, C&RT y CHAID para ver cuál tiene el mejor rendimiento; asimismo, puede probar diferentes combinaciones de métodos de regresión Por pasos, Adelante y Hacia atrás. El nodo explora cada combinación posible de opciones, evalúa cada modelo candidato en función de la medida especificada y guarda los mejores para su uso en la puntuación o en futuros análisis.
- Ejemplo
- Un municipio desea calcular de forma más precisa el impuesto sobre la propiedad y ajustar los valores de propiedades específicas del modo necesario sin tener que inspeccionar cada propiedad. Utilizando el nodo Autonumérico, el analista puede generar y comparar un número de modelos que predicen valores de propiedad basados en el tipo de edificio, el vecindario, el tamaño y otros factores conocidos.
- Requisitos
- Un único campo objetivo (con el rol establecido a Objetivo), y al menos un campo de entrada (con el rol establecido a Entrada). El objetivo debe ser un campo continuo (rango numérico), como edad o ingresos. Los campos de entrada pueden ser continuos o categóricos, con la limitación de que puede que algunas entradas no sean adecuadas para algunos tipos de modelo. Por ejemplo, los modelos C&RT pueden utilizar campos de cadena categóricos como entradas, mientras que los modelos Regresión lineal no pueden utilizar estos campos y los omitirán si se especifica. Los requisitos son los mismos que cuando se utilizan los nodos de modelado individuales. Por ejemplo, un modelo CHAID funciona igual independientemente de si se ha generado desde el nodo CHAID o el nodo Autonumérico.
- Campos de frecuencia y ponderación
- La frecuencia y la ponderación se utilizan para proporcionar importancia adicional a ciertos registros sobre otros porque, por ejemplo, el usuario sabe que el conjunto de datos creado no representa totalmente una sección de la población principal (Ponderación) o porque un registro representa un número de casos idénticos (Frecuencia). Si se especifica, los algoritmos C&RT y CHAID pueden utilizar un campo de frecuencia. Los algoritmos C&RT, CHAID, Regresión y GenLin pueden utilizar un campo de ponderación. Otros tipos de modelo omitirán estos campos y crearán los modelos de todas formas. Los campos de frecuencia y ponderación sólo se utilizan para la creación de modelos y no se tienen en cuenta al evaluar o puntuar modelos.
- Prefijos
- Si conecta un nodo de tabla al nugget para el nodo Autonumérico, existen distintas variables en la tabla con nombres que empiezan con un prefijo $.
Tipos de modelo soportados
Los tipos de modelo soportados incluyen red neuronal, árbol C&R, CHAID, regresión, GenLin, vecino más cercano, SVM, XGBoost Linear, GLE y XGBoost-AS.
Valores de validación cruzada
En las propiedades de nodo, tenga en cuenta que dispone de valores de validación cruzada. La validación cruzada es una técnica valiosa para probar la efectividad (evitando el sobreajuste) de los modelos de aprendizaje de máquina, y también constituye un procedimiento de remuestreo que puede utilizar para evaluar un modelo si tiene datos limitados.
- Combine el conjunto de datos de forma aleatoria.
- Divida el conjunto de datos en k grupos.
- Para cada grupo único:
- Tome el grupo como conjunto de datos de prueba.
- Tome el resto de los grupos como un conjunto de datos de entrenamiento.
- Inserte un modelo en el conjunto de entrenamiento y evalúelo en el conjunto de prueba.
- Guarde la puntuación de la evaluación y descarte el modelo.
- Resuma la evaluación general del modelo utilizando las puntuaciones de evaluación de k iteraciones que ha guardado.
La validación cruzada recibe soporte actualmente mediante el nodo Clasificador automático y Autonumérico. Efectúe una doble pulsación en el nodo para abrir sus propiedades. Al seleccionar la opción Validación cruzada, una única partición de prueba/entrenamiento está inhabilitada y los nodos Auto utilizarán la validación cruzada de k iteraciones para evaluar el conjunto seleccionado de diferentes algoritmos.
Puede especificar Número de iteraciones (K), El valor predeterminado es 5, con un rango de 3 a 10. Si desea retener el muestreo repetible durante la validación cruzada, para tener medidas de evaluación final coherentes para los modelos generados en distintas ejecuciones, puede seleccionar la opción Asignación de partición de validación cruzada repetible. También puede establecer Semilla aleatoria en un valor específico para que el modelo resultante sea exactamente reproducible. O pulse Generar para generar siempre la misma secuencia de valores aleatorios, en cuyo caso la ejecución del nodo siempre genera el mismo modelo generado.
Aprendizaje automático continuo
Un inconveniente de la modelado es que los modelos queden obsoletos debido a los cambios en los datos a lo largo del tiempo. Esto se conoce comúnmente como deriva del modelo o desviación conceptual. Para ayudar a superar la desviación del modelo de forma efectiva, SPSS Modeler proporciona un aprendizaje automático automatizado continuo. Esta característica está disponible para el nodo Clasificador automático y los nuggets de modelos de nodo Autonumérico. Para obtener más información, consulte Aprendizaje automático continuo.