0 / 0
Go back to the English version of the documentation
Automatický numerický uzel
Last updated: 12. 1. 2023
Automatický numerický uzel (SPSS Modeler)

Uzel Automatický numerický uzel porovnává modely pro průběžné výsledky číselných hodnot s použitím řady různých metod a umožňuje vám vyzkoušet různé přístupy v rámci jednoho běhu modelování. Můžete vybrat algoritmy, které se mají použít, a experimentovat s různými kombinacemi voleb. Například můžete předpovídat hodnoty bydlení pomocí modelů neuronové sítě, lineární regrese, C & RT a CHAID, abyste viděli, co je nejlepší, a mohli byste vyzkoušet různé kombinace krokových, dopředných a regresních regresních metod. Uzel zkoumá každou možnou kombinaci voleb, ořadí každý kandidátský model na základě vámi zadaného opatření a ukládá nejlepší pro použití v bodování nebo další analýze.

Příklad
Obec chce přesněji odhadnout realitní daně a upravit hodnoty pro specifické vlastnosti podle potřeby, aniž by bylo nutné kontrolovat každou vlastnost. Pomocí automatického číselného uzlu může analytik vygenerovat a porovnat počet modelů, které předpovídají hodnoty vlastností na základě typu budovy, okolí, velikosti a dalších známých faktorů.
Požadavky
Jedno cílové pole (s rolí nastaveným na Cíl) a alespoň jedno vstupní pole (s rolí nastaveným na Vstup). Cíl musí být souvislý (číselný rozsah), jako např. věk nebo příjem. Vstupní pole mohou být spojitá nebo kategorická, s omezením, že některé vstupy nemusí být vhodné pro některé typy modelu. Modely C & R Tree mohou například používat pole kategoriálních řetězců jako vstupy, zatímco lineární regresní modely nemohou používat tato pole a budou je ignorovat, pokud jsou zadány. Požadavky jsou stejné jako při použití jednotlivých uzlů modelování. Například model CHAID funguje stejně, ať už je generován z uzlu CHAID nebo z automatického číselného uzlu.
Frekvenční a hmotnostní pole
Frekvence a váha se používají k tomu, aby byly některé záznamy zvlášť důležité pro některé záznamy, protože například uživatel ví, že datová sada sestavení je pod-představuje sekci nadřízené populace (Váha) nebo protože jeden záznam představuje počet identických případů (frekvence). Je-li uvedeno, pole frekvence může být používáno algoritmy C & R Tree a CHAID. Pole váhy může být používáno algoritmy C & RT, CHAID, Regression a GenLin. Ostatní typy modelů budou tato pole ignorovat a modely budou přesto sestavovat. Pole frekvence a váha se používají pouze pro sestavení modelu a nejsou zvažovaná při vyhodnocení modelů nebo modelů hodnocení.
Předpony
Pokud připojíte uzel tabulky k nugget pro objekt Auto Numeric Node, v tabulce existuje několik nových proměnných s názvy začínajícími předponou $.
Názvy polí, která jsou generována při přidělení skóre, jsou založena na cílovém poli, ale se standardním prefixem. Různé typy modelů používají různé sady předpon.
Například předpony $G, $R, $C se používají jako předpona pro předpovědi generované Generalizovaným lineárním modelem, modelem CHAID a modelem C5.0 . $X se obvykle generuje pomocí kompletu a $XR, $XS a $XF se používají jako předpony v případech, kdy cílové pole je pole Souvislé, Categorical nebo Flag.
$..E předpony se používají pro důvěryhodnost predikce Continuous target; například $XRE se používá jako předpona pro komplet Continuous prediction confidence. $GE je předpona pro jednotlivou předpověď důvěry pro generalizovaný lineární model.

Podporované typy modelů

Mezi podporované typy modelů patří Neuronové Net, C & R Tree, CHAID, Regrese, GenLin, Nearest Sousedle, SVM, XGBoost Linear, GLE a XGBoost-AS.

Křížová ověření platnosti

V okně vlastností uzlu si všimněte, že jsou k dispozici nastavení křížového ověření. Cross-validation je cenná technika pro testování efektivity (vyhýbání se přehnanému vybavování) modelů strojového učení a je to také postup opětovného odběru vzorků, který můžete použít k vyhodnocení modelu, pokud máte omezená data.

K-fold je populární a snadný způsob, jak provést cross-validation. Výsledkem je méně zkreslený model ve srovnání s jedním vlakovým/zkušebním oddílem, protože zajišťuje, že každé pozorování z původní datové sady má šanci objevit se v odborné přípravě a v testovacích sadách. Obecná procedura k-násobnému křížovému ověření je následující.
Poznámka: Paralelní automatické modelování v režimu křížového ověření (spuštěné dva nebo více uzlů automatického modelování najednou, jako je například prostřednictvím tlačítka Spustit vše ) není v této chvíli podporováno. Jako náhradní řešení můžete spustit každý uzel s automatickým modelováním (s povoleným křížovým ověřením, který je ve výchozím nastavení zakázán).
  1. Zamíchat datovou sadu náhodně.
  2. Rozdělte datovou sadu do -folds/groups.
  3. Pro každou jedinečnou foldlo/skupinu:
    1. Převzít skupinu/skupinu jako pozastavené nebo testovací datovou sadu.
    2. Vezměte zbývající skupiny jako školicí datovou sadu.
    3. Přizpůsobit model sady školení a vyhodnotit jej na testovací sadě.
    4. Zachovejte skóre vyhodnocení a zahoďte model.
  4. Shrňte celkové vyhodnocení modelu pomocí uchovaných k-násobnému skóre vyhodnocení.

Křížové ověření je momentálně podporováno přes uzel Automatického klasifikátoru a Automatický numerický uzel. Poklepáním na uzel otevřete jeho vlastnosti. Výběrem volby Křížové ověření je jedna oblast vlak/test zakázána a automatické uzly budou používat k vyhodnocení vybrané sady různých algoritmů k-násobnému křížovému ověření.

Můžete zadat Počet přehybů (K), výchozí hodnota je 5, přičemž rozsah je 3 až 10. Chcete-li uchovat opakovaný odběr vzorků během křížových ověření platnosti, můžete mít konzistentní finální vyhodnocovací ukazatele pro generované modely v různých provedeních, můžete vybrat volbu Přiřazení oblastí opakovatelného ověření platnosti oblasti . Můžete také nastavit Náhodný náhodný řetězec na specifickou hodnotu, takže výsledný model je přesně reprodukovatelný. Nebo klepněte na tlačítko Generovat , chcete-li vždy generovat stejnou posloupnost náhodných hodnot, v tom případě, kdy je uzel spuštěn, bude vždy vygenerován stejný vygenerovaný model.

Neustálé učení

Nepříjemnosti při modelování jsou modely se zastaralými díky změnám vašich dat v čase. To se obvykle označuje jako posun modelu nebo posun koncepce. Produkt SPSS Modeler poskytuje nepřetržité automatické učení se strojem, aby bylo možné efektivně překonat úlet modelu. Tato funkce je k dispozici pro uzel Automatického klasifikátoru a nugety modelu automatického číselného uzlu. Další informace najdete v tématu Průběžné učení se strojem.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more