Retourner à la version anglaise de la documentationpropriétés hdbscannode
propriétés hdbscannode
Dernière mise à jour : 07 oct. 2024
L'algorithme HDBSCAN (Hierarchical Density-Based Spatial Clustering)© utilise l'apprentissage non supervisé pour rechercher des clusters, ou des régions denses, d'un ensemble de données. Le noeud HDBSCAN dans SPSS Modeler expose les fonctions principales et les paramètres couramment utilisés de la bibliothèque HDBSCAN. Il est implémenté dans Python, et vous pouvez l'utiliser pour classer votre ensemble de données en groupes distincts lorsque vous ne savez pas quels étaient ces groupes au départ.
hdbscannode propriétés |
Type de données | Description de la propriété |
---|---|---|
custom_fields | Booléen | Cette option indique au noeud d'utiliser les informations du champ spécifiées ici au lieu des informations données dans un noeud type en amont. Après avoir sélectionné cette option, spécifiez les zones suivantes, selon les besoins. |
inputs |
Zone | Champs d'entrée pour le groupement. |
useHPO |
Booléen | Spécifiez true ou false pour activer ou désactiver l'optimisation HPO (Hyper-Parameter Optimization) basée sur Rbfopt, qui détecte automatiquement la combinaison optimale de paramètres afin que le modèle atteigne le taux d'erreur attendu ou inférieur sur les échantillons. La valeur par défaut est false . |
min_cluster_size |
Integer | Taille minimale des clusters. Indiquez un entier. La valeur par défaut est 5 . |
min_samples |
Integer | Nombre d'échantillons dans le voisinage pour qu'un point puisse être considéré comme un point central. Indiquez un entier. Si la valeur est 0 , min_cluster_size est utilisé. La valeur par défaut est 0 . |
algorithm |
chaîne | Indiquez l'algorithme à utiliser: best , generic , prims_kdtree , prims_balltree , boruvka_kdtree ou boruvka_balltree . La valeur par défaut est best . |
metric |
chaîne | Indiquez la mesure à utiliser lors du calcul de la distance entre les instances d'un tableau de fonctions: euclidean , cityblock , L1 , L2 , manhattan , braycurtis , canberra , chebyshev , correlation , minkowski ou sqeuclidean . La valeur par défaut est euclidean . |
useStringLabel |
Booléen | Indiquez true pour utiliser un libellé de cluster de chaînes, ou false pour utiliser un libellé de cluster de nombres. La valeur par défaut est false . |
stringLabelPrefix |
chaîne | Si le paramètre useStringLabel est défini sur true , indiquez une valeur pour le préfixe de libellé de chaîne. Le préfixe par défaut est cluster . |
approx_min_span_tree |
Booléen | Indiquez true pour accepter une arborescence minimale approximative, ou false si vous êtes prêt à sacrifier la vitesse pour l'exactitude. La valeur par défaut est true . |
cluster_selection_method |
chaîne | Indiquez la méthode à utiliser pour la sélection des clusters à partir de l'arborescence condensée: eom ou leaf . La valeur par défaut est eom (Excédent de l'algorithme de masse). |
allow_single_cluster |
Booléen | Indiquez true si vous souhaitez autoriser les résultats de cluster unique. La valeur par défaut est false . |
p_value |
doublon | Indiquez p value à utiliser si vous utilisez minkowski pour la mesure. La valeur par défaut est 1.5 . |
leaf_size |
Integer | Si vous utilisez un algorithme d'arborescence d'espace (boruvka_kdtree ou boruvka_balltree ), indiquez le nombre de points dans un noeud terminal de l'arborescence. La valeur par défaut est 40 . |
outputValidity |
Booléen | Indiquez true ou false pour contrôler si le graphique d'index de validité est inclus dans la sortie du modèle. |
outputCondensed |
Booléen | Indiquez true ou false pour contrôler si le graphique de l'arborescence condensée est inclus dans la sortie du modèle. |
outputSingleLinkage |
Booléen | Indiquez true ou false pour contrôler si l'arborescence de liens uniques est incluse dans la sortie du modèle. |
outputMinSpan |
Booléen | Spécifiez true ou false pour contrôler si le graphique de l'arborescence d'espacement minimal est inclus dans la sortie du modèle. |
is_split |