0 / 0
Go back to the English version of the documentation
węzeł C&RT
Last updated: 07 lip 2023
Węzeł C & R Tree (SPSS Modeler)

Węzeł drzewa klasyfikacji i regresji (C&RT) jest metodą klasyfikacji i predykcji w oparciu o drzewo. W metodzie tej, podobnie jak w algorytmie C5.0, stosuje się rekursywny podział rekordów uczących na segmenty o podobnych wartościach zmiennych przewidywanych. Działanie węzła C&RT rozpoczyna się od analizy zmiennych wejściowych w poszukiwaniu najlepszych podziałów, przy czym jakość podziału mierzona jest ograniczeniem wskaźnika zanieczyszczenia uzyskanego wskutek podziału. W wyniku podziału powstają dwie podgrupy, z których każda jest następnie dzielona na następne dwie podgrupy i tak dalej, aż do spełnienia kryterium zatrzymania. Wszystkie podziały są binarne (tylko na dwie podgrupy).

Przycinanie

W przypadku algorytmu C&RT możliwe jest najpierw zbudowanie dużego drzewa, a następnie przycięcie go z zastosowaniem algorytmu analizy kosztu i złożoności, który koryguje oszacowanie ryzyka na podstawie liczby węzłów końcowych. Ta metoda, która umożliwia rozrost drzewa przed przycięciem go na podstawie bardziej złożonych kryteriów, pozwala na uzyskanie mniejszych drzew, które lepiej poddają się walidacji krzyżowej. Zwiększenie ryzyka węzłów końcowych co do zasady zmniejsza ryzyko błędu w odniesieniu do bieżących danych (tj. danych uczących), ale faktyczne ryzyko może być wyższe, gdy model zostanie uogólniony dla danych nieznanych wcześniej. Wyobraźmy sobie skrajny przypadek, w którym dla każdego rekordu w zbiorze uczącym istnieje osobny węzeł końcowy. Oszacowanie ryzyka wynosi 0%, ponieważ każdy rekord należy do jego własnego węzła, ale ryzyko błędnej klasyfikacji dla danych nieobserwowanych (testowych) byłoby niemal na pewno większe niż 0. Miara złożoności kosztów próbuje zrekompensować ten problem.

Przykład. Załóżmy, że operator telewizji kablowej zamówił badanie marketingowe mające ustalić, którzy klienci gotowi są kupić subskrypcję interaktywnego serwisu informacyjnego. Korzystając z danych z badania, można utworzyć przepływ, w którym zmienna przewidywalna ma zamiar kupować abonament, a pola predyktorów obejmują wiek, płeć, wykształcenie, kategorię dochodów, godziny spędzone na oglądaniu telewizji każdego dnia oraz liczbę dzieci. Stosując węzeł C & R Tree do przepływu, użytkownik będzie mógł przewidzieć i sklasyfikować odpowiedzi, aby uzyskać najwyższy wskaźnik odpowiedzi dla kampanii.

Wymagania. Aby potrenować model drzewa C & R Tree, należy użyć co najmniej jednego pola Input i dokładnie jednego pola Target . Zmienne przewidywana i wejściowa mogą być ilościowe (przedział liczbowy) lub jakościowe. Pola ustawione na wartość Both lub None są ignorowane. Typy wszystkich zmiennych używane w modelu muszą być zrealizowane jako instancje zmiennych, a wszelkie zmienne porządkowe (uporządkowany zestaw) stosowane w modelu muszą być przechowywane jako liczby (nie łańcuchy). W razie potrzeby do ich przekształcenia można użyć węzła rekodowania.

Mocne strony. Modele C&RT wykazują się dużą odpornością na takie problemy, jak brak danych i duża liczba zmiennych. Zwykle nie wymagają długiego uczenia, by generować prawidłowe oszacowania. Ponadto modele C&RT bywają bardziej zrozumiałe niż modele innego typu, ponieważ reguły wywiedzione z modelu dają się bardzo łatwo i bezpośrednio zinterpretować. W odróżnieniu od węzła C5.0, węzeł C&RT obsługuje zarówno zmienne przewidywane typu ilościowego, jak i jakościowego.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more