0 / 0
Go back to the English version of the documentation
węzeł C5.0
Last updated: 12 sty 2023
Węzeł C5.0 (SPSS Modeler)

Ten węzeł używa algorytmu C5.0 do utworzenia drzewa decyzyjnego albo zestawu reguł. Działanie modelu C5.0 polega na podziale próby na podstawie zmiennej oferującej największy zysk informacyjny. Każda podpróbka zdefiniowana przez pierwszy podział jest następnie dzielona ponownie, zwykle na podstawie innego pola, a proces jest powtarzany do czasu, aż podpróbki nie będą mogły zostać rozdzielone dalej. Po podziale podpróby na najniższym poziomie są ponownie analizowane, a te z nich, które nie przyczyniają się istotnie do budowania wartości modelu, są usuwane lub przycinane.

Uwaga: Węzeł C5.0 może przewidzieć tylko zmienną jakościową. Analizując dane z zmiennymi jakościowymi (nominalnymi lub porządkowymi), węzeł prawdopodobnie grupuje kategorie.

Węzeł C5.0 może generować dwa rodzaje modeli. Drzewo decyzyjne jest prostym opisem podziałów znalezionych przez algorytm. Każdy węzeł końcowy („liść”) opisuje konkretny podzbiór danych uczących, a każda obserwacja w danych uczących należy do dokładnie jednego węzła końcowego w drzewie. Innymi słowy dla każdego konkretnego rekordu danych odzwierciedlonego w drzewie decyzyjnym możliwa jest dokładnie jedna predykcja.

Z kolei zestaw reguł jest zbiorem reguł próbujących dokonać predykcji dla poszczególnych rekordów. Zestawy reguł są wywodzone z drzew decyzyjnych i mogą być traktowane jako uproszczone lub wydestylowane wersje informacji obecnych w drzewie decyzyjnym. Zestawy reguł często zachowują większość istotnych informacji z całego drzewa decyzyjnego, ale w postaci mniej złożonego modelu. Ze względu na sposób działania zestawów reguł nie mają one tych samych właściwości, co drzewa decyzyjne. Najważniejszą różnicą dotyczącą zestawu reguł jest to, że do dowolnego rekordu może mieć zastosowanie więcej niż jedna reguła lub może nie mieć zastosowania żadna reguła. Jeśli zastosowanie ma wiele reguł, każda z nich otrzymuje ważony „głos” w oparciu o ufność powiązaną z tą regułą; ostateczna decyzja dotycząca predykcji jest podejmowana poprzez połączenie ważonych głosów ze wszystkich reguł mających zastosowanie do danego rekordu. Jeśli żadna reguła nie ma zastosowania, do rekordu przypisywana jest domyślna predykcja.

Przykład. Załóżmy, że lekarz prowadzący badania naukowe zebrał dane o zbiorze pacjentów cierpiących na tę samą chorobę. W trakcie leczenia każdy pacjent zareagował na jeden z pięciu leków. Modelu C5.0 można używać w połączeniu z innymi węzłami, aby dowiedzieć się, który lek może być odpowiedni dla przyszłego pacjenta z tą samą chorobą.

Wymagania. Aby trenować model C5.0 , musi istnieć jedna zmienna jakościowa (tj. nominalna lub porządkowa) Target oraz jedno lub więcej pól Input dowolnego typu. Pola ustawione na wartość Both lub None są ignorowane. Typy zmiennych używanych w modelu muszą być w pełni zrealizowane jako instancje. Można również określić zmienną ważącą.

Mocne strony. Modele C5.0 wykazują się dużą odpornością na takie problemy, jak braki danych i duża liczba predyktorów. Zwykle nie wymagają długiego uczenia, by generować prawidłowe oszacowania. Ponadto modele C5.0 bywają bardziej zrozumiałe niż modele innego typu, ponieważ reguły wywiedzione z modelu dają się bardzo łatwo i bezpośrednio zinterpretować. Modele C5.0 oferują także metodę wzmacniania, która zwiększa dokładność klasyfikacji.

Wskazówka: Szybkość budowania modelu C5.0 może być korzystna dla przetwarzania równoległego.
Uwaga: Podczas pierwszego tworzenia przepływu należy wybrać środowisko wykonawcze, które ma być używane. Domyślnie przepływy korzystają z środowiska wykonawczego IBM SPSS Modeler . Jeśli zamiast algorytmów SPSS ma być używany rodzimy algorytmy Spark, wybierz środowisko wykonawcze Spark . Właściwości tego węzła będą się różnić w zależności od wybranej opcji środowiska wykonawczego.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more