L'algorithme HDBSCAN (Hierarchical Density-Based Spatial Clustering)© utilise l'apprentissage non supervisé pour rechercher des clusters, ou des régions denses, d'un ensemble de données.
Le noeud HDBSCAN dans watsonx.ai expose les fonctions de base et les paramètres couramment utilisés de la bibliothèque HDBSCAN. Il est implémenté dans Python, et vous pouvez l'utiliser pour classer votre ensemble de données en groupes distincts lorsque vous ne savez pas quels étaient ces groupes au départ. Contrairement à la plupart des méthodes d'apprentissage dans watsonx.ai, les modèles HDBSCAN n'utilisent pas de champ cible. Ce type d'apprentissage qui n'utilise aucun champ cible est appelé apprentissage non supervisé. Le noeud HDBSCAN n'essaie pas de générer des prévisions, mais tente de découvrir des tendances au sein des champs d'entrée. Les enregistrements sont rassemblés dans le même groupe ou le même cluster. L'algorithme HDBSCAN affiche les clusters sous forme de zones de haute densité séparées par des zones de faible densité. Dans cette vue plutôt générique, les clusters trouvés par le noeud HDBSCAN peuvent donc prendre différentes formes, contrairement à ceux trouvés par le noeud K moyenne, qui envisage les clusters sous une forme convexe. Les valeurs extrêmes qui semblent isolées dans les régions de faible densité sont également marquées. HDBSCAN prend également en charge le scoring de nouveaux échantillons.1
Pour utiliser le noeud HDBSCAN, vous devez définir un noeud Typer en amont. Le noeud HDBSCAN lira les valeurs d'entrée à partir du noeud Typer (ou des types d'un noeud d'importation en amont).
Pour plus d'informations sur les algorithmes de mise en cluster HDBSCAN, voir la documentation HDBSCAN. 1
1 "Guide d'utilisation/Tutoriel." Bibliothèque de classification hdbscan. Relations. © 2016, Leland McInnes, John Healy, Steve Astels.