0 / 0
Go back to the English version of the documentation
Właściwości hdbscannode
Last updated: 12 sty 2023
Właściwości hdbscannode

Ikona węzła HDBSCANHierarchiczne grupowanie przestrzenne na podstawie gęstości (Hierarchical Density-Based Spatial Clustering, HDBSCAN)© to technika znajdowania skupień lub gęstych obszarów zbioru danych przy wykorzystaniu uczenie nienadzorowanego. Węzeł HDBSCAN w programie SPSS Modeler ujawnia podstawowe funkcje i powszechnie używane parametry biblioteki HDBSCAN. Węzeł jest zaimplementowany w języku Python i można go użyć do skupiania zbioru danych w osobne grupy, jeśli nie wiemy z góry, co to są za grupy.

Tabela 1. właściwości węzła hdbscannode
Właściwości hdbscannode Typ danych Opis właściwości
pola niestandardowe boolean (boolowskie) Ta opcja stanowi dla węzła instrukcję o konieczności użycia informacji o zmiennej określonych w tym miejscu, a nie w żadnym wcześniejszym węźle Typy. Po wybraniu tej opcji należy określić następujące pola w zależności od potrzeb.
inputs field (pole) Zmienne wejściowe dla grupowania.
useHPO boolean (boolowskie) Określ true lub false , aby włączyć lub wyłączyć optymalizację Hyper-Parameter (HPO) w oparciu o Rbfopt, która automatycznie wykrywa optymalne połączenie parametrów, tak aby model osiągnął oczekiwaną lub mniejszą częstotliwość błędów na próbkach. Wartością domyślną jest false.
min_cluster_size liczba całkowita Minimalna wielkość skupień. Należy podać liczbę całkowitą. Wartością domyślną jest 5.
min_samples liczba całkowita Liczba próbek, jaka musi znajdować się w sąsiedztwie punktu, aby był uważany za punkt główny. Należy podać liczbę całkowitą. Jeśli zostanie ustawiona wartość 0, zostanie użyta wartość min_cluster_size. Wartością domyślną jest 0.
algorithm łańcuch Określ, który algorytm ma być używany: best, generic, prims_kdtree, prims_balltree, boruvka_kdtree albo boruvka_balltree. Wartością domyślną jest best.
metric łańcuch Określ metrykę, która ma być używana do obliczania odległości między wystąpieniami w tablicy predyktorów: euclidean, cityblock, L1, L2, manhattan, braycurtis, canberra, chebyshev, correlation, minkowski albo sqeuclidean. Wartością domyślną jest euclidean.
useStringLabel boolean (boolowskie) Określ true, aby używać łańcuchowych etykiet skupień, albo false, aby używać liczbowych etykiet skupień. Wartością domyślną jest false.
stringLabelPrefix łańcuch Jeśli parametr useStringLabel jest ustawiony na true, podaj wartość przedrostka etykiety łańcuchowej. Domyślnym przedrostkiem jest cluster.
approx_min_span_tree boolean (boolowskie) Określ true, aby zaakceptować przybliżone minimalne drzewo rozpinające, albo false, aby uzyskać większą dokładność kosztem szybkości. Wartością domyślną jest true.
cluster_selection_method łańcuch Określ metodę wybierania skupień ze skondensowanego drzewa: eom albo leaf. Wartością domyślną jest eom (algorytm Excess of Mass).
allow_single_cluster boolean (boolowskie) Określ wartość true, aby uzyskiwać wyniki dla pojedynczych skupień. Wartością domyślną jest false.
p_value double (podwójna) Określ p value na potrzeby używania minkowski dla pomiaru. Wartością domyślną jest 1.5.
leaf_size liczba całkowita Jeśli używany jest algorytm drzewa przestrzeni (boruvka_kdtree albo boruvka_balltree), określ liczbę punktów w węźle-liściu. Wartością domyślną jest 40.
outputValidity boolean (boolowskie) Określ true albo false, aby wskazać, czy wyniki modelu mają obejmować wykres wskaźnika ważności.
outputCondensed boolean (boolowskie) Określ true albo false, aby wskazać, czy wyniki modelu mają obejmować wykres skondensowanego drzewa.
outputSingleLinkage boolean (boolowskie) Określ true albo false, aby wskazać, czy wyniki modelu mają obejmować wykres drzewa pojedynczego wiązania.
outputMinSpan boolean (boolowskie) Określ true albo false, aby wskazać, czy wyniki modelu mają obejmować wykres minimalnego drzewa rozpinającego.
is_split