Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 12 sty 2023
Hierarchiczne grupowanie przestrzenne na podstawie gęstości (Hierarchical Density-Based Spatial Clustering, HDBSCAN)© to technika znajdowania skupień lub gęstych obszarów zbioru danych przy wykorzystaniu uczenie nienadzorowanego. Węzeł HDBSCAN w programie SPSS Modeler ujawnia podstawowe funkcje i powszechnie używane parametry biblioteki HDBSCAN. Węzeł jest zaimplementowany w języku Python i można go użyć do skupiania zbioru danych w osobne grupy, jeśli nie wiemy z góry, co to są za grupy.
Właściwości hdbscannode |
Typ danych | Opis właściwości |
---|---|---|
pola niestandardowe | boolean (boolowskie) | Ta opcja stanowi dla węzła instrukcję o konieczności użycia informacji o zmiennej określonych w tym miejscu, a nie w żadnym wcześniejszym węźle Typy. Po wybraniu tej opcji należy określić następujące pola w zależności od potrzeb. |
inputs |
field (pole) | Zmienne wejściowe dla grupowania. |
useHPO |
boolean (boolowskie) | Określ true lub false , aby włączyć lub wyłączyć optymalizację Hyper-Parameter (HPO) w oparciu o Rbfopt, która automatycznie wykrywa optymalne połączenie parametrów, tak aby model osiągnął oczekiwaną lub mniejszą częstotliwość błędów na próbkach. Wartością domyślną jest false . |
min_cluster_size |
liczba całkowita | Minimalna wielkość skupień. Należy podać liczbę całkowitą. Wartością domyślną jest 5 . |
min_samples |
liczba całkowita | Liczba próbek, jaka musi znajdować się w sąsiedztwie punktu, aby był uważany za punkt główny. Należy podać liczbę całkowitą. Jeśli zostanie ustawiona wartość 0 , zostanie użyta wartość min_cluster_size . Wartością domyślną jest 0 . |
algorithm |
łańcuch | Określ, który algorytm ma być używany: best , generic ,
prims_kdtree , prims_balltree , boruvka_kdtree albo
boruvka_balltree . Wartością domyślną jest best . |
metric |
łańcuch | Określ metrykę, która ma być używana do obliczania odległości między wystąpieniami w tablicy predyktorów:
euclidean , cityblock , L1 , L2 ,
manhattan , braycurtis , canberra ,
chebyshev , correlation , minkowski albo
sqeuclidean . Wartością domyślną jest euclidean . |
useStringLabel |
boolean (boolowskie) | Określ true , aby używać łańcuchowych etykiet skupień, albo false , aby używać liczbowych etykiet skupień. Wartością domyślną jest false . |
stringLabelPrefix |
łańcuch | Jeśli parametr useStringLabel jest ustawiony na true , podaj wartość przedrostka etykiety łańcuchowej. Domyślnym przedrostkiem jest cluster . |
approx_min_span_tree |
boolean (boolowskie) | Określ true , aby zaakceptować przybliżone minimalne drzewo rozpinające, albo false , aby uzyskać większą dokładność kosztem szybkości. Wartością domyślną jest true . |
cluster_selection_method |
łańcuch | Określ metodę wybierania skupień ze skondensowanego drzewa: eom albo leaf . Wartością domyślną jest eom (algorytm Excess of Mass). |
allow_single_cluster |
boolean (boolowskie) | Określ wartość true , aby uzyskiwać wyniki dla pojedynczych skupień. Wartością domyślną jest false . |
p_value |
double (podwójna) | Określ p value na potrzeby używania minkowski dla pomiaru. Wartością domyślną jest 1.5 . |
leaf_size |
liczba całkowita | Jeśli używany jest algorytm drzewa przestrzeni (boruvka_kdtree albo
boruvka_balltree ), określ liczbę punktów w węźle-liściu. Wartością domyślną jest 40 . |
outputValidity |
boolean (boolowskie) | Określ true albo false , aby wskazać, czy wyniki modelu mają obejmować wykres wskaźnika ważności. |
outputCondensed |
boolean (boolowskie) | Określ true albo false , aby wskazać, czy wyniki modelu mają obejmować wykres skondensowanego drzewa. |
outputSingleLinkage |
boolean (boolowskie) | Określ true albo false , aby wskazać, czy wyniki modelu mają obejmować wykres drzewa pojedynczego wiązania. |
outputMinSpan |
boolean (boolowskie) | Określ true albo false , aby wskazać, czy wyniki modelu mają obejmować wykres minimalnego drzewa rozpinającego. |
is_split |