0 / 0
Volver a la versión inglesa de la documentación
Nodo Clasificador automático
Última actualización: 04 oct 2024
Nodo Clasificador automático (SPSS Modeler)

El nodo Clasificador automático calcula y compara modelos de los objetivos nominales (conjuntos) o binarios (yes/no), utilizando varios métodos diferentes, lo que le permite probar diversos planteamientos en una sola ejecución de modelado. Puede seleccionar los algoritmos que se utilizarán y experimentar con múltiples combinaciones de opciones. Por ejemplo, en lugar de elegir entre los métodos de función de base radial, polinómico, sigmoide o lineal para una SVM, puede probarlos todos. El nodo explora cada combinación posible de opciones, evalúa cada modelo candidato basándose en la medida especificada y guarda los mejores modelos para utilizarlos en la puntuación o en futuros análisis.

Ejemplo
Una empresa minorista contiene datos históricos en los que se registran las ofertas realizadas a determinados clientes en campañas anteriores. La empresa ahora quiere lograr resultados más rentables haciendo coincidir la oferta adecuada a cada cliente.
Requisitos
Un campo de destino con un nivel de medición de Nominal o Flag (con el rol establecido en Destino), y al menos un campo de entrada (con el rol establecido en Entrada). Para un campo de distintivo, se supone que el valor True definido para el objetivo representa un acierto al calcular las ganancias, el aumento y las estadísticas relacionadas. Los campos de entrada pueden tener un nivel de medición de Continuous o Categorical, con la limitación de que algunas entradas pueden no ser adecuadas para algunos tipos de modelo. Por ejemplo, los campos ordinales que se utilizan como entradas en los modelos C&RT, CHAID y QUEST deben tener almacenamiento numérico (no en cadenas); asimismo, estos modelos los omitirán si se especifica lo contrario. De igual modo, los campos de entrada continuos pueden establecerse en intervalos en algunos casos. Los requisitos son los mismos que cuando se utilizan los nodos de modelado individuales; por ejemplo, un modelo Red bayesiana funciona igual independientemente de si se ha generado desde el nodo Red bayesiana o el nodo Clasificador automático.
Campos de frecuencia y ponderación
La frecuencia y la ponderación se utilizan para proporcionar importancia adicional a ciertos registros sobre otros porque, por ejemplo, el usuario sabe que el conjunto de datos creado no representa totalmente una sección de la población principal (Ponderación) o porque un registro representa un número de casos idénticos (Frecuencia). Si se especifica, los modelos C&RT, CHAID, QUEST, Lista de decisiones y Red bayesiana pueden utilizar un campo de frecuencia. Los modelos C&RT, CHAID y C5.0 pueden utilizar un campo de ponderación. Otros tipos de modelo omitirán estos campos y crearán los modelos de todas formas. Los campos de frecuencia y ponderación sólo se utilizan para la creación de modelos y no se tienen en cuenta al evaluar o puntuar modelos.
Prefijos
Si conecta un nodo tabla al nugget para el nodo Clasificador automático, existen varias variables nuevas en la tabla con nombres que empiezan con un prefijo $.
Los nombres de los campos que se generan durante la puntuación se basan en el campo objetivo, pero con un prefijo estándar. Los distintos tipos de modelo utilizan diferentes conjuntos de prefijos.
Por ejemplo, los prefijos $G, $R, $C se utilizan como prefijo para las predicciones generadas por el modelo lineal generalizado, modelo CHAID y modelo C5.0, respectivamente. $X se genera normalmente utilizando un conjunto, y $XR, $XS y $XF se utilizan como prefijos en los casos en los que el campo de objetivo es un campo Continuo, Categórico o Distintivo, respectivamente.
Los prefijos $..C se utilizan para la confianza de predicción de un objetivo categórico o distintivo; por ejemplo, $XFC se utiliza como prefijo para la confianza de predicción de distintivo de conjunto. $RC y $CC son los prefijos para una única predicción de confianza para un modelo CHAID y un modelo C5.0 respectivamente.

Tipos de modelos admitidos

Los tipos de modelo soportados incluyen red neuronal, árbol C&R, QUEST, CHAID, C5.0, regresión logística, lista de decisiones, red bayesiana, discriminante, vecino más cercano, SVM, XGBoost Tree y XGBoost-AS.

Valores de validación cruzada

En las propiedades de nodo, tenga en cuenta que dispone de valores de validación cruzada. La validación cruzada es una técnica valiosa para probar la efectividad (evitando el sobreajuste) de los modelos de aprendizaje de máquina, y también constituye un procedimiento de remuestreo que puede utilizar para evaluar un modelo si tiene datos limitados.

El método de K iteraciones (K-fold) constituye una forma fácil y muy utilizada de realizar una validación cruzada. Generalmente da como resultado un modelo menos sesgado, en comparación con una sola partición de entrenamiento o de prueba, ya que garantiza que cada observación del conjunto de datos original tiene la oportunidad de aparecer en los conjuntos de entrenamiento y de prueba. El procedimiento general de la validación cruzada k-fold es el siguiente.
Nota: El modelado automático paralelo en modalidad de validación cruzada (ejecutando dos o más nodos de modelado automático al mismo tiempo, como por ejemplo a través del botón Ejecutar todo ) no está soportado en este momento. Como solución temporal, puede ejecutar cada nodo de modelado automático (con la validación cruzada habilitada, que está inhabilitada de forma predeterminada) de uno en uno.
  1. Combine el conjunto de datos de forma aleatoria.
  2. Divida el conjunto de datos en k grupos.
  3. Para cada grupo único:
    1. Tome el grupo como conjunto de datos de prueba.
    2. Tome el resto de los grupos como un conjunto de datos de entrenamiento.
    3. Inserte un modelo en el conjunto de entrenamiento y evalúelo en el conjunto de prueba.
    4. Guarde la puntuación de la evaluación y descarte el modelo.
  4. Resuma la evaluación general del modelo utilizando las puntuaciones de evaluación de k iteraciones que ha guardado.

La validación cruzada recibe soporte actualmente mediante el nodo Clasificador automático y Autonumérico. Efectúe una doble pulsación en el nodo para abrir sus propiedades. Al seleccionar la opción Validación cruzada, una única partición de prueba/entrenamiento está inhabilitada y los nodos Auto utilizarán la validación cruzada de k iteraciones para evaluar el conjunto seleccionado de diferentes algoritmos.

Puede especificar Número de iteraciones (K), El valor predeterminado es 5, con un rango de 3 a 10. Si desea retener el muestreo repetible durante la validación cruzada, para tener medidas de evaluación final coherentes para los modelos generados en distintas ejecuciones, puede seleccionar la opción Asignación de partición de validación cruzada repetible. También puede establecer Semilla aleatoria en un valor específico para que el modelo resultante sea exactamente reproducible. O pulse Generar para generar siempre la misma secuencia de valores aleatorios, en cuyo caso la ejecución del nodo siempre genera el mismo modelo generado.

Aprendizaje automático continuo

Un inconveniente de la modelado es que los modelos queden obsoletos debido a los cambios en los datos a lo largo del tiempo. Esto se conoce comúnmente como deriva del modelo o desviación conceptual. Para ayudar a superar la desviación del modelo de forma efectiva, SPSS Modeler proporciona un aprendizaje automático automatizado continuo. Esta característica está disponible para el nodo Clasificador automático y los nuggets de modelos de nodo Autonumérico. Para obtener más información, consulte Aprendizaje automático continuo.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información