0 / 0
Volver a la versión inglesa de la documentación
Nodo Selección de características
Última actualización: 04 oct 2024
Nodo Selección de características (SPSS Modeler)

Puede que los problemas relacionados con la minería de datos impliquen cientos, o incluso miles, de campos que se pueden utilizar potencialmente como entradas. Por consiguiente, puede que se invierta mucho tiempo y esfuerzo en examinar qué campos o variables se incluirán en el modelo. Para limitar las opciones, se puede utilizar el algoritmo Selección de características para identificar los campos que son más importantes para un análisis específico. Por ejemplo, si está intentando predecir resultados de pacientes según un número de factores: ¿qué factores tienen la mayor probabilidad de ser importantes?

La selección de características se compone de tres pasos:

  • Cribado. Elimina las entradas y registros, o casos, problemáticos y no importantes, como los campos de entrada con demasiados valores que faltan o con una variación demasiado grande o pequeña para ser útiles.
  • Clasificación. Ordena las entradas restantes y les asigna un rango en función de la importancia.
  • Selección. Identifica el subconjunto de características a utilizar en modelos posteriores, por ejemplo conservando sólo las entradas más importantes y filtrando o excluyendo el resto.

En una época en la que muchas organizaciones están sobrecargadas con demasiados datos, las ventajas de la selección de características al simplificar y agilizar el proceso de modelado pueden ser numerosas. Al centrar la atención rápidamente en los campos más importantes, se puede reducir la cantidad de cálculos necesarios, localizar más fácilmente las relaciones pequeñas pero importantes que, de otra forma, se pasarían por alto y, por último, obtener modelos más sencillos, precisos y fáciles de explicar. Al reducir el número de campos utilizados en el modelo, verá que se puede reducir el tiempo de puntuación, así como la cantidad de datos recopilados en iteraciones futuras.

Ejemplo. Una compañía telefónica tiene un almacén de datos con información sobre las respuestas de 5.000 clientes en relación con una promoción especial. Los datos incluyen un gran número de campos que contienen las estadísticas del uso del teléfono, las edades de los clientes, el puesto de trabajo y los ingresos. Tres campos "objetivo" muestran si el cliente respondió a cada una de tres ofertas. La empresa desea utilizar estos datos para predecir qué clientes tienen más probabilidad de responder a ofertas similares en un futuro.

Requisitos. Un único campo objetivo (uno con su rol establecido en Target), junto con varios campos de entrada que desea examinar o clasificar en relación con el destino. Los campos objetivo y de entrada pueden tener un nivel de medición de Continuous (rango numérico) o Categorical.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información