Translation not up to date
Ten węzeł używa algorytmu C5.0 do utworzenia drzewa decyzyjnego albo zestawu reguł. Działanie modelu C5.0 polega na podziale próby na podstawie zmiennej oferującej największy zysk informacyjny. Każda podpróbka zdefiniowana przez pierwszy podział jest następnie dzielona ponownie, zwykle na podstawie innego pola, a proces jest powtarzany do czasu, aż podpróbki nie będą mogły zostać rozdzielone dalej. Po podziale podpróby na najniższym poziomie są ponownie analizowane, a te z nich, które nie przyczyniają się istotnie do budowania wartości modelu, są usuwane lub przycinane.
Węzeł C5.0 może generować dwa rodzaje modeli. Drzewo decyzyjne jest prostym opisem podziałów znalezionych przez algorytm. Każdy węzeł końcowy („liść”) opisuje konkretny podzbiór danych uczących, a każda obserwacja w danych uczących należy do dokładnie jednego węzła końcowego w drzewie. Innymi słowy dla każdego konkretnego rekordu danych odzwierciedlonego w drzewie decyzyjnym możliwa jest dokładnie jedna predykcja.
Z kolei zestaw reguł jest zbiorem reguł próbujących dokonać predykcji dla poszczególnych rekordów. Zestawy reguł są wywodzone z drzew decyzyjnych i mogą być traktowane jako uproszczone lub wydestylowane wersje informacji obecnych w drzewie decyzyjnym. Zestawy reguł często zachowują większość istotnych informacji z całego drzewa decyzyjnego, ale w postaci mniej złożonego modelu. Ze względu na sposób działania zestawów reguł nie mają one tych samych właściwości, co drzewa decyzyjne. Najważniejszą różnicą dotyczącą zestawu reguł jest to, że do dowolnego rekordu może mieć zastosowanie więcej niż jedna reguła lub może nie mieć zastosowania żadna reguła. Jeśli zastosowanie ma wiele reguł, każda z nich otrzymuje ważony „głos” w oparciu o ufność powiązaną z tą regułą; ostateczna decyzja dotycząca predykcji jest podejmowana poprzez połączenie ważonych głosów ze wszystkich reguł mających zastosowanie do danego rekordu. Jeśli żadna reguła nie ma zastosowania, do rekordu przypisywana jest domyślna predykcja.
Przykład. Załóżmy, że lekarz prowadzący badania naukowe zebrał dane o zbiorze pacjentów cierpiących na tę samą chorobę. W trakcie leczenia każdy pacjent zareagował na jeden z pięciu leków. Modelu C5.0 można używać w połączeniu z innymi węzłami, aby dowiedzieć się, który lek może być odpowiedni dla przyszłego pacjenta z tą samą chorobą.
Wymagania. Aby trenować model C5.0 , musi istnieć jedna zmienna jakościowa (tj. nominalna lub porządkowa) Target
oraz jedno lub więcej pól Input
dowolnego typu. Pola ustawione na wartość Both
lub None
są ignorowane. Typy zmiennych używanych w modelu muszą być w pełni zrealizowane jako instancje. Można również określić
zmienną ważącą.
Mocne strony. Modele C5.0 wykazują się dużą odpornością na takie problemy, jak braki danych i duża liczba predyktorów. Zwykle nie wymagają długiego uczenia, by generować prawidłowe oszacowania. Ponadto modele C5.0 bywają bardziej zrozumiałe niż modele innego typu, ponieważ reguły wywiedzione z modelu dają się bardzo łatwo i bezpośrednio zinterpretować. Modele C5.0 oferują także metodę wzmacniania, która zwiększa dokładność klasyfikacji.