Translation not up to date
Węzeł Auto Predykcja estymuje i porównuje modele dla wyników ilościowych przedziału liczbowego, korzystając z szeregu różnych metod, co pozwala na wypróbowanie szeregu podejść w jednym przebiegu modelowania. Istnieje możliwość wyboru algorytmów, które mają być używane, oraz eksperymentowania z wieloma kombinacjami opcji. Możliwa jest na przykład predykcja wartości składowych z użyciem sieci neuronowych, regresji liniowej, modelu C&RT lub modelu CHAID w celu stwierdzenia, który z nich sprawdza się najlepiej. Możliwe jest także wypróbowanie różnych kombinacji metod regresji krokowej, postępującej i wstecznej. Węzeł umożliwia eksplorację każdej możliwej kombinacji opcji, rangując każdy model kandydacki w oparciu o określoną przez użytkownika miarę, a następnie zapisuje najlepszy z nich do wykorzystania w ocenie lub do dalszej analizy.
- Przykład
- Zarząd miasta potrzebuje dokładniejszych oszacowań podatku od nieruchomości oraz możliwości dostosowania wartości dla konkretnych nieruchomości odpowiednio do potrzeb, bez konieczności sprawdzania każdej z nich. Korzystając z węzła Auto Predykcja, analityk może wygenerować i porównać szereg modeli, które przewidują wartości nieruchomości w oparciu o typ budynku, sąsiedztwo, wielkość i inne znane czynniki.
- Wymagania
- Pojedyncza zmienna przewidywana (dla której jako rolę ustawiono Przewidywana), oraz co najmniej jedna zmienna wejściowa (dla której jako rolę ustawiono Dane wejściowe). Zmienna przewidywana musi być zmienną ilościową (przedziałem liczbowym), taką jak wiek czy przychód. Zmienne wejściowe mogą być ilościowe lub jakościowe, przy zastrzeżeniu, że niektóre dane wejściowe mogą być nieodpowiednie w przypadku niektórych typów modeli. Na przykład modele C&RT mogą korzystać z jakościowych zmiennych łańcuchowych jako danych wejściowych, podczas gdy modele regresji liniowej nie mogą używać takich zmiennych i będą je ignorować. Wymagania są takie same jak w przypadku korzystania z indywidualnych węzłów modelowania. Na przykład model CHAID działa tak samo niezależnie od tego, czy został wygenerowany na podstawie węzła CHAID, czy na podstawie węzła Auto Predykcja.
- Zmienne częstości i ważąca.
- Częstość i waga pozwalają nadać niektórym rekordom większe znaczenie niż innym, na przykład wówczas, kiedy użytkownik wie, że wbudowany zbiór danych nie zapewnia właściwej reprezentacji części populacji nadrzędnej (Waga) lub ponieważ jeden rekord reprezentuje pewną liczbę identycznych obserwacji (Częstość). W przypadku zaznaczenia tej opcji zmienna częstości może być wykorzystywana przez algorytmy C&RT oraz CHAID. Zmienna ważąca może być wykorzystywana przez algorytmy C&RT, CHAID, regresję i Modele uogólnione. Inne typy modeli będą ignorować te zmienne, tworząc modele mimo to. Zmienne częstości i ważąca są używane tylko do tworzenia modeli i nie są uwzględniane podczas oceniania modeli.
- Przedrostki
- W przypadku dołączenia węzła tabeli do modelu użytkowego dla węzła Auto Predykcja tabeli dostępnych jest kilka nowych zmiennych o nazwach rozpoczynających się prefiksem $.
Obsługiwane typy modeli
Do obsługiwanych typów modeli należą: Sieci neuronowe, Drzewo C&R, CHAID, Regresja, Modele uogólnione, Najbliższy sąsiad, SVM, Liniowy XGBoost, GLE i XGBoost-AS.
Ustawienia walidacji krzyżowej
W przypadku właściwości węzła należy pamiętać, że ustawienia sprawdzania krzyżowego są dostępne. Walidacja krzyżowa jest cenną techniką testowania skuteczności (unikanie nadmiernego dopasowania) modeli uczenia maszynowego, a także jest to procedura ponownego pobierania próbek, której można użyć do oceny modelu w przypadku, gdy masz ograniczone dane.
- Przytasuj zbiór danych losowo.
- Podziel zbiór danych na grupy k-folds/groups.
- Dla każdego unikalnego składowania/grupy:
- Weź krotnie/grupę jako wstrzymanie lub zestaw danych testowych.
- Weź pozostałe grupy jako zbiór danych treningowych.
- Dopasuj model do zestawu treningowego i oceniaj go na zestawie testów.
- Zachowuj wynik wartościowania i odrzuć model.
- Podsumuj ogólną ocenę modelu przy użyciu zachowanych wyników oceny k-krotnej.
Walidacja krzyżowa jest obecnie obsługiwana przez węzeł Auto Klasyfikacja i węzeł Auto Predykcja. Kliknij dwukrotnie węzeł, aby otworzyć jego właściwości. Wybranie opcji Cross-validate powoduje wyłączenie pojedynczej partycji typu pociąg/test, a węzły Auto-k-fold-walidację krzyżową w celu oceny wybranego zestawu różnych algorytmów.
Można określić wartość Liczba składów (K), Domyślna wartość to 5, z zakresu od 3 do 10. Aby zachować powtarzalne pobieranie próbek podczas walidacji krzyżowej, aby mieć spójne końcowe miary wartościowania dla wygenerowanych modeli w różnych wykonaniach, można wybrać opcję Powtarzalne przypisanie do partycji sprawdzania poprawności krzyżowego . Można również ustawić wartość Losowy materiał siewny na konkretną wartość, tak aby model wynikowy był dokładnie powtarzalny. Można też kliknąć opcję Generuj , aby zawsze generować taką samą sekwencję wartości losowych, w której to przypadku uruchomienie węzła zawsze daje ten sam wygenerowany model.
Ciągłe uczenie maszynowe
Jedną z niedogodności związanych z modelowaniem jest dezaktualizacja modeli wynikająca ze zmian w danych źródłowych zachodzących na przestrzeni czasu. Zjawisko to jest często nazywane dryftem modelu lub dryfem modelu. SPSS Modeler oferuje funkcję ciągłego zautomatyzowanego uczenia maszynowego, która pomaga w skutecznym niwelowaniu skutków dryftu modelu. Ta funkcja jest dostępna w modelach węzła Auto Klasyfikacja i Auto Predykcja. Więcej informacji na ten temat zawiera sekcja Ciągłe uczenie maszynowe.