Translation not up to date
Węzeł Auto Klasyfikacja estymuje i porównuje modele dla przewidywanych zmiennych nominalnych (zbiory) lub binarnych (tak/nie), stosując szereg różnych metod, co pozwala na wypróbowanie szeregu podejść w jednym przebiegu modelowania. Istnieje możliwość wyboru algorytmów, które mają być używane, oraz eksperymentowania z wieloma kombinacjami opcji. Na przykład zamiast dla modelu SVM wybierać między Radialną funkcją bazową, funkcją wielomianową, funkcją sigmoidalną lub funkcją liniową, można wypróbować wszystkie te metody. Węzeł umożliwia eksplorację każdej możliwej kombinacji opcji, rangując każdy model kandydacki w oparciu o określoną przez użytkownika miarę, a następnie zapisuje najlepsze modele do wykorzystania w ocenie lub do dalszej analizy.
- Przykład
- Załóżmy, że firma prowadząca handel detaliczny dysponuje danymi historycznymi o ofertach skierowanych do poszczególnych klientów w ramach wcześniejszych kampanii. Firma teraz chce osiągnąć bardziej dochodowe wyniki, dopasując odpowiednią ofertę do każdego klienta.
- Wymagania
- Pole docelowe z poziomem pomiaru
Nominal
lubFlag
(z rolą ustawionym na Element docelowy) i co najmniej jednym polem wejściowym (z rolą ustawionym na Dane wejściowe). W przypadku zmiennej flagi przyjmuje się, że wartośćTrue
zdefiniowana dla celu reprezentuje trafienie podczas obliczania zysków, udźwigów i powiązanych statystyk. Zmienne wejściowe mogą mieć poziom pomiaruContinuous
lubCategorical
, z ograniczeniem, że niektóre dane wejściowe mogą nie być odpowiednie dla niektórych typów modeli. Na przykład zmienne porządkowe używane jako predyktory dla modeli C&RT, CHAID i QUEST muszą być zapisane w formie liczby (nie łańcucha), gdyż w przeciwnym razie będą przez te modele ignorowane. Podobnie, ilościowe zmienne wejściowe mogą być w niektórych przypadkach poddawane kategoryzacji. Wymagania są takie same, jak w przypadku poszczególnych węzłów modelowania. Na przykład model Bayes Net działa tak samo, niezależnie od tego, czy został wygenerowany z węzła Bayes Net, czy z węzła Auto Classifier. - Zmienne częstości i ważąca.
- Częstość i waga pozwalają nadać niektórym rekordom większe znaczenie niż innym, na przykład wówczas, kiedy użytkownik wie, że wbudowany zbiór danych nie zapewnia właściwej reprezentacji części populacji nadrzędnej (Waga) lub ponieważ jeden rekord reprezentuje pewną liczbę identycznych obserwacji (Częstość). W przypadku zaznaczenia tej opcji zmienna częstości może być wykorzystywane przez modele C&RT, CHAID, QUEST, Lista decyzyjna i Sieci Bayesa. Zmienna ważąca może być wykorzystywana przez modele C&RT, CHAID i C5.0. Inne typy modeli będą ignorować te zmienne, tworząc modele mimo to. Zmienne częstości i ważąca są używane tylko do tworzenia modeli i nie są uwzględniane podczas oceniania modeli.
- Prefiksy
- W przypadku dołączenia węzła tabeli do modelu użytkowego dla węzła Auto Klasyfikacja tabeli dostępnych jest kilka nowych zmiennych o nazwach rozpoczynających się prefiksem $.
Obsługiwane typy modeli
Do obsługiwanych typów modeli należą: Sieci neuronowe, Drzewo C&R, QUEST, CHAID, C5.0, Regresja logistyczna, Lista decyzyjna, Sieć Bayesa, Analiza dyskryminacyjna, Najbliższy sąsiad, SVM, Drzewo XGBoost i XGBoost-AS.
Ustawienia walidacji krzyżowej
W przypadku właściwości węzła należy pamiętać, że ustawienia sprawdzania krzyżowego są dostępne. Walidacja krzyżowa jest cenną techniką testowania skuteczności (unikanie nadmiernego dopasowania) modeli uczenia maszynowego, a także jest to procedura ponownego pobierania próbek, której można użyć do oceny modelu w przypadku, gdy masz ograniczone dane.
- Przytasuj zbiór danych losowo.
- Podziel zbiór danych na grupy k-folds/groups.
- Dla każdego unikalnego składowania/grupy:
- Weź krotnie/grupę jako wstrzymanie lub zestaw danych testowych.
- Weź pozostałe grupy jako zbiór danych treningowych.
- Dopasuj model do zestawu treningowego i oceniaj go na zestawie testów.
- Zachowuj wynik wartościowania i odrzuć model.
- Podsumuj ogólną ocenę modelu przy użyciu zachowanych wyników oceny k-krotnej.
Walidacja krzyżowa jest obecnie obsługiwana przez węzeł Auto Klasyfikacja i węzeł Auto Predykcja. Kliknij dwukrotnie węzeł, aby otworzyć jego właściwości. Wybranie opcji Cross-validate powoduje wyłączenie pojedynczej partycji typu pociąg/test, a węzły Auto-k-fold-walidację krzyżową w celu oceny wybranego zestawu różnych algorytmów.
Można określić wartość Liczba składów (K), Domyślna wartość to 5, z zakresu od 3 do 10. Aby zachować powtarzalne pobieranie próbek podczas walidacji krzyżowej, aby mieć spójne końcowe miary wartościowania dla wygenerowanych modeli w różnych wykonaniach, można wybrać opcję Powtarzalne przypisanie do partycji sprawdzania poprawności krzyżowego . Można również ustawić wartość Losowy materiał siewny na konkretną wartość, tak aby model wynikowy był dokładnie powtarzalny. Można też kliknąć opcję Generuj , aby zawsze generować taką samą sekwencję wartości losowych, w której to przypadku uruchomienie węzła zawsze daje ten sam wygenerowany model.
Ciągłe uczenie maszynowe
Jedną z niedogodności związanych z modelowaniem jest dezaktualizacja modeli wynikająca ze zmian w danych źródłowych zachodzących na przestrzeni czasu. Zjawisko to jest często nazywane dryftem modelu lub dryfem modelu. SPSS Modeler oferuje funkcję ciągłego zautomatyzowanego uczenia maszynowego, która pomaga w skutecznym niwelowaniu skutków dryftu modelu. Ta funkcja jest dostępna w modelach węzła Auto Klasyfikacja i Auto Predykcja. Więcej informacji na ten temat zawiera sekcja Ciągłe uczenie maszynowe.