0 / 0
Go back to the English version of the documentation
Węzeł Auto Predykcja
Last updated: 07 lip 2023
Węzeł Auto Predykcja (SPSS Modeler)

Węzeł Auto Predykcja estymuje i porównuje modele dla wyników ilościowych przedziału liczbowego, korzystając z szeregu różnych metod, co pozwala na wypróbowanie szeregu podejść w jednym przebiegu modelowania. Istnieje możliwość wyboru algorytmów, które mają być używane, oraz eksperymentowania z wieloma kombinacjami opcji. Możliwa jest na przykład predykcja wartości składowych z użyciem sieci neuronowych, regresji liniowej, modelu C&RT lub modelu CHAID w celu stwierdzenia, który z nich sprawdza się najlepiej. Możliwe jest także wypróbowanie różnych kombinacji metod regresji krokowej, postępującej i wstecznej. Węzeł umożliwia eksplorację każdej możliwej kombinacji opcji, rangując każdy model kandydacki w oparciu o określoną przez użytkownika miarę, a następnie zapisuje najlepszy z nich do wykorzystania w ocenie lub do dalszej analizy.

Przykład
Zarząd miasta potrzebuje dokładniejszych oszacowań podatku od nieruchomości oraz możliwości dostosowania wartości dla konkretnych nieruchomości odpowiednio do potrzeb, bez konieczności sprawdzania każdej z nich. Korzystając z węzła Auto Predykcja, analityk może wygenerować i porównać szereg modeli, które przewidują wartości nieruchomości w oparciu o typ budynku, sąsiedztwo, wielkość i inne znane czynniki.
Wymagania
Pojedyncza zmienna przewidywana (dla której jako rolę ustawiono Przewidywana), oraz co najmniej jedna zmienna wejściowa (dla której jako rolę ustawiono Dane wejściowe). Zmienna przewidywana musi być zmienną ilościową (przedziałem liczbowym), taką jak wiek czy przychód. Zmienne wejściowe mogą być ilościowe lub jakościowe, przy zastrzeżeniu, że niektóre dane wejściowe mogą być nieodpowiednie w przypadku niektórych typów modeli. Na przykład modele C&RT mogą korzystać z jakościowych zmiennych łańcuchowych jako danych wejściowych, podczas gdy modele regresji liniowej nie mogą używać takich zmiennych i będą je ignorować. Wymagania są takie same jak w przypadku korzystania z indywidualnych węzłów modelowania. Na przykład model CHAID działa tak samo niezależnie od tego, czy został wygenerowany na podstawie węzła CHAID, czy na podstawie węzła Auto Predykcja.
Zmienne częstości i ważąca.
Częstość i waga pozwalają nadać niektórym rekordom większe znaczenie niż innym, na przykład wówczas, kiedy użytkownik wie, że wbudowany zbiór danych nie zapewnia właściwej reprezentacji części populacji nadrzędnej (Waga) lub ponieważ jeden rekord reprezentuje pewną liczbę identycznych obserwacji (Częstość). W przypadku zaznaczenia tej opcji zmienna częstości może być wykorzystywana przez algorytmy C&RT oraz CHAID. Zmienna ważąca może być wykorzystywana przez algorytmy C&RT, CHAID, regresję i Modele uogólnione. Inne typy modeli będą ignorować te zmienne, tworząc modele mimo to. Zmienne częstości i ważąca są używane tylko do tworzenia modeli i nie są uwzględniane podczas oceniania modeli.
Przedrostki
W przypadku dołączenia węzła tabeli do modelu użytkowego dla węzła Auto Predykcja tabeli dostępnych jest kilka nowych zmiennych o nazwach rozpoczynających się prefiksem $.
Nazwy zmiennych, które są wygenerowane podczas oceniania, są tworzone na podstawie zmiennej przewidywanej, ale dodawany jest standardowy przedrostek. Różne typy modeli używają różnych zestawów przedrostków.
Na przykład przedrostki $G, $R, $C są używane jako przedrostki predykcji, które są generowane odpowiednio przez model uogólniony model liniowy, model CHAID i model C5.0 . $X jest zwykle generowany przez użycie zespołu, a $XR, $XS i $XF są używane jako przedrostki w przypadkach, gdzie zmienna przewidywana jest zmienną ilościową, jakościową lub zmienną typu flaga.
Przedrostki $..E są używane w przypadku ufności predykcji decelowej wartości ilościowej; na przykład przedrostek $XRE jest używany w przypadku ufności predykcji ciągłej ilościowej. $GE jest przedrostkiem dla pojedynczej predykcji ufności dla uogólnionego modelu liniowego.

Obsługiwane typy modeli

Do obsługiwanych typów modeli należą: Sieci neuronowe, Drzewo C&R, CHAID, Regresja, Modele uogólnione, Najbliższy sąsiad, SVM, Liniowy XGBoost, GLE i XGBoost-AS.

Ustawienia walidacji krzyżowej

W przypadku właściwości węzła należy pamiętać, że ustawienia sprawdzania krzyżowego są dostępne. Walidacja krzyżowa jest cenną techniką testowania skuteczności (unikanie nadmiernego dopasowania) modeli uczenia maszynowego, a także jest to procedura ponownego pobierania próbek, której można użyć do oceny modelu w przypadku, gdy masz ograniczone dane.

K-fold jest popularnym i łatwym sposobem na przeprowadzenie walidacji krzyżowej. Generalnie skutkowała ona mniej tendencyjnym modelem w porównaniu do pojedynczej partycji kolejowej/testowej, ponieważ zapewnia ona, że każda obserwacja z oryginalnego zbioru danych ma szansę pojawiać się w zestawach treningowych i testowych. Ogólna procedura walidacji krzyżowej jest następująca.
Uwaga: Automatyczne modelowanie równoległe w trybie sprawdzania krzyżowego (uruchamianie co najmniej dwóch węzłów modelowania automatycznego w tym samym czasie, na przykład za pomocą przycisku Uruchom wszystko ) nie jest obsługiwane w tym momencie. Aby obejść ten problem, można uruchomić każdy węzeł automatycznego modelowania (z włączonym walidowaniem krzyżowym, który domyślnie jest wyłączony).
  1. Przytasuj zbiór danych losowo.
  2. Podziel zbiór danych na grupy k-folds/groups.
  3. Dla każdego unikalnego składowania/grupy:
    1. Weź krotnie/grupę jako wstrzymanie lub zestaw danych testowych.
    2. Weź pozostałe grupy jako zbiór danych treningowych.
    3. Dopasuj model do zestawu treningowego i oceniaj go na zestawie testów.
    4. Zachowuj wynik wartościowania i odrzuć model.
  4. Podsumuj ogólną ocenę modelu przy użyciu zachowanych wyników oceny k-krotnej.

Walidacja krzyżowa jest obecnie obsługiwana przez węzeł Auto Klasyfikacja i węzeł Auto Predykcja. Kliknij dwukrotnie węzeł, aby otworzyć jego właściwości. Wybranie opcji Cross-validate powoduje wyłączenie pojedynczej partycji typu pociąg/test, a węzły Auto-k-fold-walidację krzyżową w celu oceny wybranego zestawu różnych algorytmów.

Można określić wartość Liczba składów (K), Domyślna wartość to 5, z zakresu od 3 do 10. Aby zachować powtarzalne pobieranie próbek podczas walidacji krzyżowej, aby mieć spójne końcowe miary wartościowania dla wygenerowanych modeli w różnych wykonaniach, można wybrać opcję Powtarzalne przypisanie do partycji sprawdzania poprawności krzyżowego . Można również ustawić wartość Losowy materiał siewny na konkretną wartość, tak aby model wynikowy był dokładnie powtarzalny. Można też kliknąć opcję Generuj , aby zawsze generować taką samą sekwencję wartości losowych, w której to przypadku uruchomienie węzła zawsze daje ten sam wygenerowany model.

Ciągłe uczenie maszynowe

Jedną z niedogodności związanych z modelowaniem jest dezaktualizacja modeli wynikająca ze zmian w danych źródłowych zachodzących na przestrzeni czasu. Zjawisko to jest często nazywane dryftem modelu lub dryfem modelu. SPSS Modeler oferuje funkcję ciągłego zautomatyzowanego uczenia maszynowego, która pomaga w skutecznym niwelowaniu skutków dryftu modelu. Ta funkcja jest dostępna w modelach węzła Auto Klasyfikacja i Auto Predykcja. Więcej informacji na ten temat zawiera sekcja Ciągłe uczenie maszynowe.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more