0 / 0
Go back to the English version of the documentation
Uzel automatického klasifikátoru
Last updated: 12. 1. 2023
Uzel Automatického klasifikátoru (SPSS Modeler)

Uzel Automatického klasifikátoru odhaduje a porovnává modely nominálního (nastaveného) nebo binárního (ano/ne) cílů pomocí řady různých metod, které umožňují vyzkoušet různé přístupy v rámci jednoho modelování. Můžete vybrat algoritmy, které se mají použít, a experimentovat s různými kombinacemi voleb. Například, spíše než volit mezi Radiální základní funkcí, polynomu, sigmoid, nebo lineární metodami pro SVM, můžete zkusit všechny. Uzel zkoumá každou možnou kombinaci voleb, ořadí každý kandidátský model na základě opatření, které specifikujete, a uloží nejlepší modely pro použití v bodování nebo další analýze.

Příklad
Maloobchodní společnost má historické údaje, které sledují nabídky konkrétních zákazníků v minulých kampaních. Nyní chce firma dosáhnout ziskovějších výsledků tím, že bude odpovídat příslušné nabídce každému zákazníkovi.
Požadavky
Cílové pole s úrovní měření buď Nominal , nebo Flag (s rolí nastaveným na Cíl), a alespoň jedním vstupním polem (s rolí nastaveným na Vstup). U pole příznaku se předpokládá, že hodnota True definovaná pro cíl představuje hit při výpočtu zisků, výtahů a souvisejících statistik. Vstupní pole mohou mít úroveň měření Continuous nebo Categorical, s omezením, že některé vstupy nemusí být vhodné pro některé typy modelu. Například ordinální pole použitá jako vstupy v modelech C & R, CHAID a QUEST musí mít numerickou paměť (ne řetězec) a tyto modely budou tyto modely ignorovat, pokud jsou zadány jinak. Podobně platí, že v některých případech mohou být v některých případech kontinuální vstupní pole binned. Požadavky jsou stejné jako při použití jednotlivých modelovacích uzlů. Například model Bayes Net pracuje stejně, ať už je generován z uzlu Bayes Net nebo z uzlu Automatického klasifikátoru.
Frekvenční a hmotnostní pole
Frekvence a váha se používají k tomu, aby byly některé záznamy zvlášť důležité pro některé záznamy, protože například uživatel ví, že datová sada sestavení je pod-představuje sekci nadřízené populace (Váha) nebo protože jeden záznam představuje počet identických případů (frekvence). Je-li uvedeno, pole frekvence může být používáno modelem C & R Tree, CHAID, QUEST, Decision List a Bayes Net. Pole váhy může být používáno modely C & RT, CHAID a C5.0 . Ostatní typy modelů budou tato pole ignorovat a modely budou přesto sestavovat. Pole frekvence a váha se používají pouze pro sestavení modelu a nejsou zvažovaná při vyhodnocení modelů nebo modelů hodnocení.
Předpony
Pokud připojíte uzel tabulky k nugget pro uzel Automatického klasifikátoru, v tabulce se objeví několik nových proměnných s názvy začínajícími předponou $.
Názvy polí, která jsou generována při přidělení skóre, jsou založena na cílovém poli, ale se standardním prefixem. Různé typy modelů používají různé sady předpon.
Například předpony $G, $R, $C se používají jako předpona pro předpovědi generované Generalizovaným lineárním modelem, modelem CHAID a modelem C5.0 . $X se obvykle generuje pomocí kompletu a $XR, $XS a $XF se používají jako předpony v případech, kdy cílové pole je pole Souvislé, Categorical nebo Flag.
$..Předpony jazyka C se používají pro predikci důvěry v Categorical nebo pro cíl příznaku; například $XFC se používá jako předpona pro komplet predikce předpovědí. $RC a $CC jsou předpony pro jednotlivou předpověď důvěry pro model CHAID a C5.0 .

Podporované typy modelů

Mezi podporované typy modelů patří Neuronové Net, C & R Tree, QUEST, CHAID, C5.0, Logistic Regression, Decision List, Bayes Net, Diskriminant, Nearest Soused, SVM, XGBoost Tree a XGBoost-AS.

Křížová ověření platnosti

V okně vlastností uzlu si všimněte, že jsou k dispozici nastavení křížového ověření. Cross-validation je cenná technika pro testování efektivity (vyhýbání se přehnanému vybavování) modelů strojového učení a je to také postup opětovného odběru vzorků, který můžete použít k vyhodnocení modelu, pokud máte omezená data.

K-fold je populární a snadný způsob, jak provést cross-validation. Výsledkem je méně zkreslený model ve srovnání s jedním vlakovým/zkušebním oddílem, protože zajišťuje, že každé pozorování z původní datové sady má šanci objevit se v odborné přípravě a v testovacích sadách. Obecná procedura k-násobnému křížovému ověření je následující.
Poznámka: Paralelní automatické modelování v režimu křížového ověření (spuštěné dva nebo více uzlů automatického modelování najednou, jako je například prostřednictvím tlačítka Spustit vše ) není v této chvíli podporováno. Jako náhradní řešení můžete spustit každý uzel s automatickým modelováním (s povoleným křížovým ověřením, který je ve výchozím nastavení zakázán).
  1. Zamíchat datovou sadu náhodně.
  2. Rozdělte datovou sadu do -folds/groups.
  3. Pro každou jedinečnou foldlo/skupinu:
    1. Převzít skupinu/skupinu jako pozastavené nebo testovací datovou sadu.
    2. Vezměte zbývající skupiny jako školicí datovou sadu.
    3. Přizpůsobit model sady školení a vyhodnotit jej na testovací sadě.
    4. Zachovejte skóre vyhodnocení a zahoďte model.
  4. Shrňte celkové vyhodnocení modelu pomocí uchovaných k-násobnému skóre vyhodnocení.

Křížové ověření je momentálně podporováno přes uzel Automatického klasifikátoru a Automatický numerický uzel. Poklepáním na uzel otevřete jeho vlastnosti. Výběrem volby Křížové ověření je jedna oblast vlak/test zakázána a automatické uzly budou používat k vyhodnocení vybrané sady různých algoritmů k-násobnému křížovému ověření.

Můžete zadat Počet přehybů (K), výchozí hodnota je 5, přičemž rozsah je 3 až 10. Chcete-li uchovat opakovaný odběr vzorků během křížových ověření platnosti, můžete mít konzistentní finální vyhodnocovací ukazatele pro generované modely v různých provedeních, můžete vybrat volbu Přiřazení oblastí opakovatelného ověření platnosti oblasti . Můžete také nastavit Náhodný náhodný řetězec na specifickou hodnotu, takže výsledný model je přesně reprodukovatelný. Nebo klepněte na tlačítko Generovat , chcete-li vždy generovat stejnou posloupnost náhodných hodnot, v tom případě, kdy je uzel spuštěn, bude vždy vygenerován stejný vygenerovaný model.

Neustálé učení

Nepříjemnosti při modelování jsou modely se zastaralými díky změnám vašich dat v čase. To se obvykle označuje jako posun modelu nebo posun koncepce. Produkt SPSS Modeler poskytuje nepřetržité automatické učení se strojem, aby bylo možné efektivně překonat úlet modelu. Tato funkce je k dispozici pro uzel Automatického klasifikátoru a nugety modelu automatického číselného uzlu. Další informace najdete v tématu Průběžné učení se strojem.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more