Translation not up to date
Węzeł Drzewa losowe jest podobny do węzła drzewa C & RT, jednak węzeł Drzewa losowe jest przeznaczony do przetwarzania dużych zbiorów danych w celu utworzenia pojedynczego drzewa. Węzeł Drzewa losowe generuje drzewo decyzyjne umożliwiające predykcję lub klasyfikację przyszłych obserwacji. W metodzie tej stosowany jest rekursywny podział rekordów na segmenty przez minimalizację zanieczyszczeń w każdym kroku, przy czym węzeł w drzewie jest uważany za czysty, jeśli 100% obserwacji w węźle przypada na konkretną kategorię zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi lub jakościowymi (nominalnymi, porządkowymi lub flagami); wszystkie podziały są binarne (tylko dwie podgrupy).
Właściwości węzła randomtrees |
Wartości | Opis właściwości |
---|---|---|
target |
field (pole) | W węźle Drzewa losowe modele wymagają jednej zmiennej przewidywanej i co najmniej jednej zmiennej wejściowej. Można też określić zmienną częstości. Więcej informacji na ten temat zawiera sekcja Właściwości wspólnego węzła modelowania . |
number_of_models |
liczba całkowita | Określa liczbę modeli, jakie mają być utworzone w ramach modelowania zespoleń. |
use_number_of_predictors |
flaga | Określa, czy używana jest wartość number_of_predictors . |
number_of_predictors |
liczba całkowita | Określa liczbę predyktorów, które mają być używane przy budowaniu modeli rozdzielonych. |
use_stop_rule_for_accuracy |
flaga | Określa, czy budowanie modelu jest zatrzymywane, gdy dokładność nie może zostać poprawiona. |
sample_size |
Liczba | Zmniejszenie tej wartości przynosi wzrost wydajności przetwarzania bardzo obszernych zbiorów danych. |
handle_imbalanced_data |
flaga | Jeśli celem modelu jest konkretna flaga, a stosunek pożądanego wyniku do niepożądanego wyniku jest bardzo mały, to dane są niezrównoważone, a próbkowanie bootstrap przeprowadzone przez model może mieć wpływ na dokładność modelu. Ta właściwość włącza obsługę danych niezrównoważonych, tak by model uwzględniał większy udział wyników pożądanych i był przez to silniejszy. |
use_weighted_sampling |
flaga | Wartość False powoduje, że zmienne dla każdego węzła są wybierane losowo z tym samym prawdopodobieństwem. Wartość True powoduje ważnie i odpowiedni dobór zmiennych. |
max_node_number |
liczba całkowita | Maksymalna liczba węzłów dozwolona w jednym drzewie. Jeśli następny podział spowodowałby przekroczenie tej liczby, rozrost drzewa jest zatrzymywany. |
max_depth |
liczba całkowita | Maksymalna głębokość drzewa przed zatrzymaniem rozrostu. |
min_child_node_size |
liczba całkowita | Określa minimalną liczbę rekordów dozwoloną w węźle podrzędnym po podziale węzła nadrzędnego. Jeśli węzeł podrzędny będzie zawierał mniejszą liczbę rekordów niż określono w tym miejscu, węzeł nadrzędny nie zostanie podzielony. |
use_costs |
flaga | |
costs |
ustrukturyzowane | Właściwość ustrukturyzowana. Obowiązujący format to lista złożona z 3 wartości: wartości rzeczywistej, wartości przewidywanej i kosztu, gdyby ta predykcja była błędna. Na przykład:
tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]]) |
default_cost_increase |
none linear square custom |
Należy pamiętać, że ta opcja jest włączona tylko dla celów porządkowych. Określa wartości domyślne w macierzy kosztów. |
max_pct_missing |
liczba całkowita | Jeśli odsetek braków danych w jakiejkolwiek zmiennej wejściowej byłby większy od określonej tutaj wartości, zmienna wejściowa jest wykluczana. Minimum 0, maksimum 100. |
exclude_single_cat_pct |
liczba całkowita | Jeśli jedna kategoria reprezentuje większy odsetek rekordów niż określony tutaj, cała zmienna jest wykluczana z budowania modelu. Minimum 1, maksimum 99. |
max_category_number |
liczba całkowita | Jeśli liczba kategorii w zmiennej przekracza tę wartość, zmienna jest wykluczana z budowania modelu. Minimum 2. |
min_field_variation |
Liczba | Jeśli współczynnik zmienności zmiennej ilościowej jest mniejszy od tej wartości, zmienna jest wykluczana z budowania modelu. |
num_bins |
liczba całkowita | Używana tylko wtedy, gdy dane wejściowe są złożone ze zmiennych ciągłych. Określa liczbę przedziałów o równej częstości, na którą mają być podzielone dane wejściowe; dostępne opcje: 2, 4, 5, 10, 20, 25, 50 i 100. |
topN |
liczba całkowita | Określa liczbę reguł do ujęcia w raporcie. Domyślna wartość wynosi 50, minimalna 1, a maksymalna 1000. |