Hierarchical Density-Based Spatial Clustering (HDBSCAN)© は、教師なし学習を使用してデータ・セットのクラスター (つまり、密度の高い領域) を検出します。
watsonx.ai Studio」のHDBSCANノードは、HDBSCANライブラリーのコア機能とよく使われるパラメーターを公開している。 このノードは Python で実装されており、最初にグループの性質が分からない場合にデータ・セットを異なるグループにクラスター化するために使用できます。 watsonx.ai Studioのほとんどの学習方法とは異なり、HDBSCANモデルはターゲットフィールドを使用しない。 このタイプの学習は、対象フィールドがないことから、教師なし学習と呼ばれます。 HDBSCAN では、結果が予測されるのではなく、一連の入力フィールドのパターンが明らかにされます。 レコードは、1 つのグループまたはクラスター内のレコード同士がよく似た特性を持ち、異なるグループのレコードが互いに類似しないように分類されます。 HDBSCAN アルゴリズムにより、低密度領域で分割された高密度領域としてクラスターが表示されます。 この汎用的なビューにより、クラスターを凸形状として想定する K-Means とは異なり、HDBSCAN で検出されるクラスターは任意の形状になる可能性があります。 低密度領域に単独で存在している外れ値点もマークされます。 HDBSCAN では、新規サンプルのスコアリングもサポートされます。1
HDBSCAN ノードを使用するには、上流のデータ型ノードをセットアップする必要があります。 HDBSCAN ノードは、データ型ノードから (または、上流のインポート・ノードのデータ型から) 入力値を読み込みます。
HDBSCAN クラスタリング・アルゴリズムについて詳しくは、 HDBSCAN の資料を参照してください。 1
1 「ユーザー・ガイド/チュートリアル」。 hdbscan クラスタリング・ライブラリー。 Web. © 2016, Leland McInnes, John Healy, Steve Astels.