El nodo K-medias ofrece un método de análisis de clústeres. Se puede utilizar para agrupar el conjunto de datos en grupos distintos cuando no se sabe lo que son al principio. A diferencia de la mayoría de los métodos de aprendizaje en SPSS Modeler, los modelos K-Means no utilizan un campo objetivo. Este tipo de aprendizaje, sin campo objetivo, se denomina aprendizaje no supervisado. En lugar de intentar predecir un resultado, los modelos de K-medias intentan revelar los patrones en el conjunto de campos de entrada. Los registros se agrupan de manera que los de un mismo grupo o clúster tiendan a ser similares entre ellos, y que los de otros grupos sean distintos.
K-medias empieza definiendo un conjunto de centros de clústeres iniciales derivados de datos. Después asigna cada registro al clúster de registros más similares, basándose en los valores de los campos de entrada de registros. Una vez asignados todos los casos, los centros de clústeres se actualizan para reflejar el nuevo conjunto de registros asignados a cada clúster. Los registros se vuelven a comprobar para ver si se deben reasignar a otro clúster, y el proceso de iteración de clúster/asignación continúa hasta que se alcanza el número máximo de iteraciones o el cambio entre una iteración y otra no sobrepasa el umbral especificado.
Requisitos. Para entrenar un modelo de K-medias, necesita uno o más campos con el rol establecido en Input
. Los campos con el rol establecido en Output
, Both
o None
se ignoran.
Puntos fuertes. No es necesario tener los datos en pertenencia a grupos para crear un modelo de K-medias. Este modelo suele ser el método más rápido de agrupación en clústeres para conjuntos de datos grandes.