0 / 0
Go back to the English version of the documentation
Węzeł Drzewa losowe
Last updated: 12 sty 2023
Węzeł Drzewa losowe (SPSS Modeler)

Węzeł Drzewa losowe może być używany z danymi w środowisku rozproszonym. Ten węzeł służy do budowania modelu zespolonego składającego się z wielu drzew decyzyjnych.

Węzeł Drzewa losowe jest metodą klasyfikacji i predykcji w oparciu o drzewo. W metodzie tej, podobnie jak w algorytmie C&R, stosuje się rekursywny podział rekordów uczących na segmenty o podobnych wartościach zmiennych przewidywanych. Działanie węzła rozpoczyna się od analizy dostępnych zmiennych wejściowych w poszukiwaniu najlepszych podziałów, przy czym jakość podziału mierzona jest ograniczeniem wskaźnika zanieczyszczenia uzyskanego wskutek podziału. W wyniku podziału powstają dwie podgrupy, z których każda jest następnie dzielona na następne dwie podgrupy i tak dalej, aż do spełnienia kryterium zatrzymania. Wszystkie podziały są binarne (tylko na dwie podgrupy).

Węzeł Drzewa losowe używa próby bootstrapowej z zastępowaniem w celu wygenerowania danych próby. Dane próby są używane do rozbudowy modelu drzewa. Podczas wzrostu drzewa węzeł Drzewa losowe nie będzie ponownie próbkował danych. Zamiast tego węzeł losowo wybiera część predyktorów i używa najlepszego, aby podzielić węzeł drzewa. Ten proces jest powtarzany podczas dzielenia każdego węzła drzewa. Jest to podstawowa idea wzrostu drzewa w lesie losowym.

Węzeł Drzewa losowe wykorzystuje drzewa podobne do drzew C & R. Ponieważ takie drzewa są binarne, podział każdej zmiennej skutkuje powstaniem dwóch gałęzi. W przypadku zmiennej jakościowej z wieloma kategoriami kategorie są pogrupowane w dwie grupy w oparciu o kryterium podziału wewnętrznego. Każde drzewo rozrasta się w największym możliwym zakresie (nie ma przycinania). W przypadku oceny węzeł Drzewa losowe łączy wyniki poszczególnych drzew poprzez głosowanie większościowe (dla klasyfikacji) lub uśrednianie (dla regresji).

Drzewa losowe różnią się od drzew C & R w następujący sposób:
  • Węzły Drzewa losowe wybierają losowo określoną liczbę predyktorów i wykorzystują najlepsze z nich, aby podzielić węzeł. W przeciwieństwie do tego, węzeł drzewa C & R znajduje jeden najlepszy predyktor spośród wszystkich.
  • Każde drzewo w węźle Drzewa losowe rośnie bez ograniczeń, do czasu aż każdy węzeł-liść zawierał będzie (zwykle) jeden rekord. Głębokość drzewa może być bardzo duża. Jednak standardowe drzewo C & R używa różnych reguł zatrzymujących wzrost drzewa, co zwykle prowadzi do powstania znacznie płytszych drzew.

Algorytm Drzewa losowe oferuje dwie funkcje niedostępne w algorytmie C&RT:

  • Pierwszą jest agregacja bootstrapowa, w której tworzone są repliki zbiorów danych uczących poprzez próbkowanie z zastąpieniem oryginalnego zbioru danych. Taki sposób działania powoduje powstawanie prób bootstrapowych, które mają rozmiar równy oryginalnemu zbiorowi danych, po czym na każdej replice budowany jest model zespolony. Te modele składników tworzą razem model zespolony.
  • Druga funkcja polega na tym, że przy każdym podziale drzewa tylko próbka zmiennych wejściowych jest uwzględniana na potrzeby miary zanieczyszczenia.

Wymagania. Do uczenia modelu Drzewa losowe potrzeba co najmniej jednej zmiennej wejściowej i jednej zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być ilościowe (przedział liczbowy) lub jakościowe. Zmienne o roli Łącznie lub Żadna są ignorowane. Typy wszystkich zmiennych używane w modelu muszą być zrealizowane jako instancje zmiennych, a wszelkie zmienne porządkowe (uporządkowany zestaw) stosowane w modelu muszą być przechowywane jako liczby (nie łańcuchy). W razie potrzeby do ich przekształcenia można użyć węzła rekodowania.

Mocne strony. Modele Drzewa losowe są odporne w przypadku dużych zbiorów danych i dużej liczby zmiennych. Z powodu stosowania agregacji bootstrapowej i próbkowania zmiennych są one dużo mniej podatne na przeuczenie i dzięki temu wyniki uzyskiwane w testach mogą zostać z większym prawdopodobieństwem powtórzone w przypadku użycia nowych danych.

Uwaga: Podczas pierwszego tworzenia przepływu należy wybrać środowisko wykonawcze, które ma być używane. Domyślnie przepływy korzystają z środowiska wykonawczego IBM SPSS Modeler . Jeśli zamiast algorytmów SPSS ma być używany rodzimy algorytmy Spark, wybierz środowisko wykonawcze Spark . Właściwości tego węzła będą się różnić w zależności od wybranej opcji środowiska wykonawczego.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more