Puede utilizar el algoritmo de evaluación de modelos de dos pasos o de clúster escalable para agrupar en clústeres datos en cuadernos.
Clúster de dos pasos
Scalable Two-Step está basado en el conocido algoritmo de agrupación en clúster de dos pasos, pero amplía su funcionalidad y rendimiento en varias direcciones.
En primer lugar, puede trabajar eficazmente con datos de gran tamaño y distribuidos, soportados por Spark, que proporciona el paradigma de computación Map-Reduce.
En segundo lugar, el algoritmo proporciona mecanismos para seleccionar las características más relevantes para agrupar los datos específicos, así como para detectar puntos atípicos raros. Además, proporciona un conjunto mejorado de características de evaluación y diagnóstico para habilitar los conocimientos.
El algoritmo de agrupación en clúster de dos pasos realiza primero un paso de preagrupación en clúster explorando el conjunto de datos completo y almacenando las regiones de casos de datos densas, en relación con las estadísticas de resumen denominadas características del clúster. Las características del clúster se almacenan en la memoria en una estructura de datos denominada CF-tree. Por último, se aplica un algoritmo aglomerativo de agrupación jerárquica en clúster para agrupar el conjunto de características del clúster.
Código de ejemplo de Python:
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Evaluación del modelo de clúster
La evaluación del modelo de clúster (CME) tiene como objetivo interpretar los modelos de clúster y descubrir información útil basada en diferentes medidas de evaluación.
Es un análisis posterior al modelado que es genérico e independiente de cualquier tipo de los modelos de clúster.
Código de ejemplo de Python:
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Tema principal: SPSS algoritmos de análisis predictivo