Volver a la versión inglesa de la documentaciónpropiedades de hdbscannode
propiedades de hdbscannode
Última actualización: 07 oct 2024
La agrupación en clúster espacial basada en la densidad jerárquica (HDBSCAN)© utiliza el aprendizaje no supervisado para buscar clústeres, o regiones densas, de un conjunto de datos. El nodo HDBSCAN en SPSS Modeler expone las características principales y los parámetros utilizados habitualmente de la biblioteca HDBSCAN. El nodo se implementa en Python, y puede utilizarlo para agrupar en clúster el conjunto de datos en grupos distintos cuando no sabe que grupos son al principio.
Propiedades de hdbscannode |
Tipo de datos | Descripción de la propiedad |
---|---|---|
campos_cliente | Boolean | Esta opción permite indicar al nodo que use la información de campo especificada aquí en lugar de la proporcionada en nodos Tipo situados en cualquier punto anterior de la ruta. Después de seleccionar esta opción, especifique los campos siguientes según sea necesario. |
inputs |
campo | Campos de entrada para la agrupación en clúster. |
useHPO |
Boolean | Especifique true o false para habilitar o inhabilitar HPO (Hyper-Parameter Optimization) basándose en Rbfopt, que descubre automáticamente la combinación óptima de parámetros para que el modelo alcance la tasa de error esperada o menor en las muestras. El valor predeterminado es false . |
min_cluster_size |
entero | El tamaño mínimo de clústeres. Especifique un entero. El valor predeterminado es 5 . |
min_samples |
entero | El número de muestras en un vecindario para un punto que se va a considerar un punto central. Especifique un entero. Si se establece en 0 , se utiliza min_cluster_size . El valor predeterminado es 0 . |
algorithm |
serie | Especifique qué algoritmo utilizar: best , generic , prims_kdtree , prims_balltree , boruvka_kdtree o boruvka_balltree . El valor predeterminado es best . |
metric |
serie | Especifique qué métrica se debe utilizar al calcular la distancia entre instancias de una matriz de características: euclidean , cityblock , L1 , L2 , manhattan , braycurtis , canberra , chebyshev , correlation , minkowski o sqeuclidean . El valor predeterminado es euclidean . |
useStringLabel |
Boolean | Especifique true para utilizar una etiqueta de clúster de serie o false para utilizar una etiqueta de clúster de números. El valor predeterminado es false . |
stringLabelPrefix |
serie | Si el parámetro useStringLabel se establece en true , especifique un valor para el prefijo de etiqueta de serie. El prefijo predeterminado es cluster . |
approx_min_span_tree |
Boolean | Especifique true para aceptar un árbol de expansión mínimo aproximado, o false si está dispuesto a sacrificar la velocidad por la corrección. El valor predeterminado es true . |
cluster_selection_method |
serie | Especifique el método que se utilizará para seleccionar clústeres del árbol condensado: eom o leaf . El valor predeterminado es eom (Exceso de algoritmo de masa). |
allow_single_cluster |
Boolean | Especifique true si desea permitir los resultados de un único clúster. El valor predeterminado es false . |
p_value |
double | Especifique el p value que se utilizará si utiliza minkowski para la métrica. El valor predeterminado es 1.5 . |
leaf_size |
entero | Si utiliza un algoritmo de árbol de espacio (boruvka_kdtree o boruvka_balltree ), especifique el número de puntos en un nodo de hoja del árbol. El valor predeterminado es 40 . |
outputValidity |
Boolean | Especifique true o false para controlar si el gráfico Índice de validez se incluye en la salida del modelo. |
outputCondensed |
Boolean | Especifique true o false para controlar si el gráfico Árbol condensado se incluye en la salida del modelo. |
outputSingleLinkage |
Boolean | Especifique true o false para controlar si el diagrama Árbol de enlace único se incluye en la salida del modelo. |
outputMinSpan |
Boolean | Especifique true o false para controlar si el gráfico Árbol mín de expansión se incluye en la salida del modelo. |
is_split |