Il nodo Classificatore automatico stima e confronta i modelli per gli obiettivi nominali o binari (sì/no), utilizzando una serie di metodi differenti, che consentono di sperimentare diversi approcci in una singola esecuzione di modellazione. È possibile selezionare gli algoritmi da utilizzare e sperimentare con varie combinazioni di opzioni. Ad esempio, invece di scegliere tra i metodi RBF (Radial Basis Function), Polinomiale, Sigmoid, o Lineare per un SVM, è possibile provarli tutti. Il nodo analizza ogni possibile combinazione di opzioni, classifica ciascun modello candidato in base alle misure specificate dall'utente e salva i migliori per utilizzarli nel calcolo del punteggio o per ulteriori analisi.
- Esempio
- Una società di vendita al dettaglio dispone di dati cronologici che tengono traccia delle offerte fatte ai clienti specifici nell'ambito delle campagne precedenti. L'azienda ora vuole ottenere risultati più redditizi abbinando l'offerta appropriata a ogni cliente.
- Requisiti
- Un campo obiettivo con un livello di misurazione
Nominal
oFlag
(con il ruolo impostato su Obiettivo) e almeno un campo di input (con il ruolo impostato su Input). Per un campo indicatore, si presuppone che il valoreTrue
definito per il campo obiettivo rappresenti un riscontro quando si calcolano profitti, guadagno cumulativo e statistiche correlate. I campi di input possono avere un livello di misurazioneContinuous
oCategorical
, con la limitazione che alcuni input potrebbero non essere appropriati per alcuni tipi di modello. Ad esempio, i campi ordinali utilizzati come input nei modelli C&R Tree, CHAID e QUEST devono disporre di archiviazione numerica (non stringa) e saranno ignorati da tali modelli se specificati diversamente. Analogamente, i campi di input continui possono essere discretizzati in alcuni casi. I requisiti sono uguali a quelli necessari per l'utilizzo dei singoli nodi di modellazione; per esempio, un modello Rete bayesiana funziona allo stesso modo indipendentemente dal fatto che sia generato dal nodo Rete bayesiana o Classificatore automatico. - Campi frequenza e peso
- La frequenza e il peso vengono utilizzati per conferire maggiore importanza ad alcuni record rispetto ad altri, ad esempio perché l'utente sa che il dataset di creazione sottorappresenta una sezione della popolazione genitore (Peso) o perché un record rappresenta diversi casi identici (Frequenza). Se specificato, un campo frequenza può essere utilizzato dai modelli C&R Tree, CHAID, QUEST, Elenco di decisioni e Rete bayesiana. Un campo peso può essere utilizzato dai modelli C&RT, CHAID e C5.0. Gli altri tipi di modelli ignoreranno questi campi e genereranno comunque i modelli. I campi frequenza e peso sono utilizzati solo per la creazione del modello e non vengono considerati per la valutazione o il calcolo del punteggio dei modelli.
- Prefissi
- Se si allega un nodo tabella al nugget del Nodo Classificatore automatico, vi sono diverse nuove variabili nella tabella con i nomi che iniziano con un prefisso $.
Tipi di modello supportati
I tipi di modello supportati includono Rete neurale, C&R Tree, QUEST, CHAID, C5.0, Regressione logistica, Elenco di decisioni, Rete bayesiana, Discriminante, Nearest Neighbor, SVM, XGBoost Tree e XGBoost-AS.
Impostazioni di convalida incrociata
Nelle proprietà del nodo, sono disponibili le impostazioni di convalida incrociata. La convalida incrociata è una tecnica preziosa per testare l'efficacia (evitando il sovradattamento) dei modelli di machine learning ed è anche una procedura di ricampionamento che è possibile utilizzare per valutare un modello se si dispone di dati limitati.
- Utilizzare il dataset in modo causale.
- Suddividere il dataset in k-fold/gruppi.
- Per ogni singolo fold/gruppo:
- Prendere il fold/gruppo come holdout o dataset di test.
- Prendere i restanti gruppi come dataset di addestramento.
- Adattare un modello a una serie di addestramento e valutarlo sulla serie di test.
- Conservare il punteggio di valutazione e scartare il modello.
- Sintetizzare la valutazione complessiva del modello utilizzando i punteggi di valutazione k-fold conservati.
La convalida incrociata è attualmente supportata tramite il nodo Classificatore automatico e il nodo Numerico automatico. Fare doppio clic sul nodo per aprire le proprietà. Selezionando l'opzione Convalida incrociata, una singola partizione di addestramento/test viene disabilitata e i nodi automatici utilizzeranno la convalida incrociata k-fold per valutare la serie selezionata di algoritmi diversi.
È possibile specificare il Numero di occorrenze (K); il valore predefinito è 5, con un intervallo compreso tra 3 e 10. Se si desidera conservare un campionamento ripetibile durante la convalida incrociata, per avere misure di valutazione finale congruenti in diverse esecuzioni, è possibile selezionare l'opzione Assegnazione partizione convalida incrociata ripetibile. È inoltre possibile impostare il seed casuale su un valore specifico in modo che il modello risultante sia esattamente riproducibile. Oppure fare clic su Genera per generare sempre la stessa sequenza di valori casuali, in questo caso l'esecuzione del nodo produce sempre lo stesso modello generato.
Apprendimento automatico continuo
Un inconveniente con la modellazione è che i modelli diventano obsoleti a causa di modifiche ai dati nel tempo. Ciò viene comunemente indicato come deviazione del modello o deviazione del concetto. Per aiutare a superare in modo efficace la deviazione del modello, SPSS Modeler fornisce l'apprendimento automatico continuo. Questa funzione è disponibile per i nugget del modello del nodo Classificatore automatico e Numerico automatico. Per ulteriori informazioni, vedi Continuous machine learning.