0 / 0
Go back to the English version of the documentation
Węzeł Auto Klasyfikacja
Last updated: 12 sty 2023
Węzeł Auto Klasyfikacja (SPSS Modeler)

Węzeł Auto Klasyfikacja estymuje i porównuje modele dla przewidywanych zmiennych nominalnych (zbiory) lub binarnych (tak/nie), stosując szereg różnych metod, co pozwala na wypróbowanie szeregu podejść w jednym przebiegu modelowania. Istnieje możliwość wyboru algorytmów, które mają być używane, oraz eksperymentowania z wieloma kombinacjami opcji. Na przykład zamiast dla modelu SVM wybierać między Radialną funkcją bazową, funkcją wielomianową, funkcją sigmoidalną lub funkcją liniową, można wypróbować wszystkie te metody. Węzeł umożliwia eksplorację każdej możliwej kombinacji opcji, rangując każdy model kandydacki w oparciu o określoną przez użytkownika miarę, a następnie zapisuje najlepsze modele do wykorzystania w ocenie lub do dalszej analizy.

Przykład
Załóżmy, że firma prowadząca handel detaliczny dysponuje danymi historycznymi o ofertach skierowanych do poszczególnych klientów w ramach wcześniejszych kampanii. Firma teraz chce osiągnąć bardziej dochodowe wyniki, dopasując odpowiednią ofertę do każdego klienta.
Wymagania
Pole docelowe z poziomem pomiaru Nominal lub Flag (z rolą ustawionym na Element docelowy) i co najmniej jednym polem wejściowym (z rolą ustawionym na Dane wejściowe). W przypadku zmiennej flagi przyjmuje się, że wartość True zdefiniowana dla celu reprezentuje trafienie podczas obliczania zysków, udźwigów i powiązanych statystyk. Zmienne wejściowe mogą mieć poziom pomiaru Continuous lub Categorical, z ograniczeniem, że niektóre dane wejściowe mogą nie być odpowiednie dla niektórych typów modeli. Na przykład zmienne porządkowe używane jako predyktory dla modeli C&RT, CHAID i QUEST muszą być zapisane w formie liczby (nie łańcucha), gdyż w przeciwnym razie będą przez te modele ignorowane. Podobnie, ilościowe zmienne wejściowe mogą być w niektórych przypadkach poddawane kategoryzacji. Wymagania są takie same, jak w przypadku poszczególnych węzłów modelowania. Na przykład model Bayes Net działa tak samo, niezależnie od tego, czy został wygenerowany z węzła Bayes Net, czy z węzła Auto Classifier.
Zmienne częstości i ważąca.
Częstość i waga pozwalają nadać niektórym rekordom większe znaczenie niż innym, na przykład wówczas, kiedy użytkownik wie, że wbudowany zbiór danych nie zapewnia właściwej reprezentacji części populacji nadrzędnej (Waga) lub ponieważ jeden rekord reprezentuje pewną liczbę identycznych obserwacji (Częstość). W przypadku zaznaczenia tej opcji zmienna częstości może być wykorzystywane przez modele C&RT, CHAID, QUEST, Lista decyzyjna i Sieci Bayesa. Zmienna ważąca może być wykorzystywana przez modele C&RT, CHAID i C5.0. Inne typy modeli będą ignorować te zmienne, tworząc modele mimo to. Zmienne częstości i ważąca są używane tylko do tworzenia modeli i nie są uwzględniane podczas oceniania modeli.
Prefiksy
W przypadku dołączenia węzła tabeli do modelu użytkowego dla węzła Auto Klasyfikacja tabeli dostępnych jest kilka nowych zmiennych o nazwach rozpoczynających się prefiksem $.
Nazwy zmiennych, które są wygenerowane podczas oceniania, są tworzone na podstawie zmiennej przewidywanej, ale dodawany jest standardowy przedrostek. Różne typy modeli używają różnych zestawów przedrostków.
Na przykład przedrostki $G, $R, $C są używane jako przedrostki predykcji, które są generowane odpowiednio przez model uogólniony model liniowy, model CHAID i model C5.0 . $X jest zwykle generowany przez użycie zespołu, a $XR, $XS i $XF są używane jako przedrostki w przypadkach, gdzie zmienna przewidywana jest zmienną ilościową, jakościową lub zmienną typu flaga.
Przedrostki $..C są używane w przypadku ufności predykcji dla zmiennej przewidywanej jakościowej lub zmiennej przewidywanej typu flaga; na przykład, $XFC jest używany jako przedrostek dla ufności predykcji zmiennej. $RC i $CC to przedrostki dla pojedynczej predykcji ufności dla modelu CHAID i modelu C5.0.

Obsługiwane typy modeli

Do obsługiwanych typów modeli należą: Sieci neuronowe, Drzewo C&R, QUEST, CHAID, C5.0, Regresja logistyczna, Lista decyzyjna, Sieć Bayesa, Analiza dyskryminacyjna, Najbliższy sąsiad, SVM, Drzewo XGBoost i XGBoost-AS.

Ustawienia walidacji krzyżowej

W przypadku właściwości węzła należy pamiętać, że ustawienia sprawdzania krzyżowego są dostępne. Walidacja krzyżowa jest cenną techniką testowania skuteczności (unikanie nadmiernego dopasowania) modeli uczenia maszynowego, a także jest to procedura ponownego pobierania próbek, której można użyć do oceny modelu w przypadku, gdy masz ograniczone dane.

K-fold jest popularnym i łatwym sposobem na przeprowadzenie walidacji krzyżowej. Generalnie skutkowała ona mniej tendencyjnym modelem w porównaniu do pojedynczej partycji kolejowej/testowej, ponieważ zapewnia ona, że każda obserwacja z oryginalnego zbioru danych ma szansę pojawiać się w zestawach treningowych i testowych. Ogólna procedura walidacji krzyżowej jest następująca.
Uwaga: Automatyczne modelowanie równoległe w trybie sprawdzania krzyżowego (uruchamianie co najmniej dwóch węzłów modelowania automatycznego w tym samym czasie, na przykład za pomocą przycisku Uruchom wszystko ) nie jest obsługiwane w tym momencie. Aby obejść ten problem, można uruchomić każdy węzeł automatycznego modelowania (z włączonym walidowaniem krzyżowym, który domyślnie jest wyłączony).
  1. Przytasuj zbiór danych losowo.
  2. Podziel zbiór danych na grupy k-folds/groups.
  3. Dla każdego unikalnego składowania/grupy:
    1. Weź krotnie/grupę jako wstrzymanie lub zestaw danych testowych.
    2. Weź pozostałe grupy jako zbiór danych treningowych.
    3. Dopasuj model do zestawu treningowego i oceniaj go na zestawie testów.
    4. Zachowuj wynik wartościowania i odrzuć model.
  4. Podsumuj ogólną ocenę modelu przy użyciu zachowanych wyników oceny k-krotnej.

Walidacja krzyżowa jest obecnie obsługiwana przez węzeł Auto Klasyfikacja i węzeł Auto Predykcja. Kliknij dwukrotnie węzeł, aby otworzyć jego właściwości. Wybranie opcji Cross-validate powoduje wyłączenie pojedynczej partycji typu pociąg/test, a węzły Auto-k-fold-walidację krzyżową w celu oceny wybranego zestawu różnych algorytmów.

Można określić wartość Liczba składów (K), Domyślna wartość to 5, z zakresu od 3 do 10. Aby zachować powtarzalne pobieranie próbek podczas walidacji krzyżowej, aby mieć spójne końcowe miary wartościowania dla wygenerowanych modeli w różnych wykonaniach, można wybrać opcję Powtarzalne przypisanie do partycji sprawdzania poprawności krzyżowego . Można również ustawić wartość Losowy materiał siewny na konkretną wartość, tak aby model wynikowy był dokładnie powtarzalny. Można też kliknąć opcję Generuj , aby zawsze generować taką samą sekwencję wartości losowych, w której to przypadku uruchomienie węzła zawsze daje ten sam wygenerowany model.

Ciągłe uczenie maszynowe

Jedną z niedogodności związanych z modelowaniem jest dezaktualizacja modeli wynikająca ze zmian w danych źródłowych zachodzących na przestrzeni czasu. Zjawisko to jest często nazywane dryftem modelu lub dryfem modelu. SPSS Modeler oferuje funkcję ciągłego zautomatyzowanego uczenia maszynowego, która pomaga w skutecznym niwelowaniu skutków dryftu modelu. Ta funkcja jest dostępna w modelach węzła Auto Klasyfikacja i Auto Predykcja. Więcej informacji na ten temat zawiera sekcja Ciągłe uczenie maszynowe.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more