Il nodo Numerico automatico stima e confronta i modelli per i risultati di intervalli numerici continui utilizzando una serie di metodi differenti, consentendo di sperimentare approcci diversi in una singola esecuzione di modellazione. È possibile selezionare gli algoritmi da utilizzare e sperimentare con varie combinazioni di opzioni. Ad esempio, è possibile prevedere i valori delle abitazioni utilizzando i modelli rete neurale, regressione lineare, C&RT e CHAID per verificare quale di essi offre le prestazioni migliori ed è possibile provare diverse combinazioni dei metodi di regressione stepwise, in avanti ed all'indietro. Il nodo analizza ogni possibile combinazione di opzioni, classifica ogni modello candidato in base alle misure specificate dall'utente e salva i migliori per utilizzarli nel calcolo del punteggio o per ulteriori analisi.
- Esempio
- Un'amministrazione comunale desidera effettuare una stima più precisa delle imposte sugli immobili e ritoccare, se necessario, i valori relativi a determinate proprietà senza doverle ispezionare tutte. Mediante il nodo Numerico automatico è possibile generare e confrontare numerosi modelli che prevedono i valori delle proprietà in base al tipo di edificio, al quartiere, alle dimensioni e ad altri fattori noti.
- Requisiti
- Un solo campo obiettivo (con il ruolo impostato su Obiettivo) e almeno un campo di input (con il ruolo impostato su Input). L'obiettivo deve essere un campo continuo (intervallo numerico) quale età o reddito. I campi di input possono essere continui o categoriali, con la limitazione che alcuni input possono non essere appropriati per determinati tipi di modelli. Ad esempio, i modelli C&R Tree possono utilizzare campi stringa relativi alla categoria come input, mentre i modelli di regressione lineare non possono utilizzare tali campi che, se specificati, vengono ignorati. I requisiti sono analoghi a quelli richiesti per l'utilizzo dei singoli nodi di modellazione. Per esempio, un modello CHAID funziona allo stesso modo sia quando è generato dal nodo CHAID, sia quando è generato dal nodo Numerico automatico.
- Campi frequenza e peso
- La frequenza e il peso vengono utilizzati per conferire maggiore importanza ad alcuni record rispetto ad altri, ad esempio perché l'utente sa che il dataset di creazione sottorappresenta una sezione della popolazione genitore (Peso) o perché un record rappresenta diversi casi identici (Frequenza). Se specificato, un campo frequenza può essere utilizzato dagli algoritmi C&R Tree e CHAID. Un campo peso può essere utilizzato dagli algoritmi C&RT, CHAID, Regressione e GenLin. Gli altri tipi di modelli ignoreranno questi campi e genereranno comunque i modelli. I campi frequenza e peso sono utilizzati solo per la creazione del modello e non vengono considerati per la valutazione o il calcolo del punteggio dei modelli.
- Prefissi
- Se si allega un nodo tabella al nugget del Nodo Numerico automatico, vi sono diverse nuove variabili nella tabella con i nomi che iniziano con un prefisso $.
Tipi di modello supportati
I tipi di modello supportati includono Rete neurale, C&R Tree, CHAID, Regressione, GenLin, Nearest Neighbor, SVM, XGBoost Linear, GLE e XGBoost-AS.
Impostazioni di convalida incrociata
Nelle proprietà del nodo, sono disponibili le impostazioni di convalida incrociata. La convalida incrociata è una tecnica preziosa per testare l'efficacia (evitando il sovradattamento) dei modelli di machine learning ed è anche una procedura di ricampionamento che è possibile utilizzare per valutare un modello se si dispone di dati limitati.
- Utilizzare il dataset in modo causale.
- Suddividere il dataset in k-fold/gruppi.
- Per ogni singolo fold/gruppo:
- Prendere il fold/gruppo come holdout o dataset di test.
- Prendere i restanti gruppi come dataset di addestramento.
- Adattare un modello a una serie di addestramento e valutarlo sulla serie di test.
- Conservare il punteggio di valutazione e scartare il modello.
- Sintetizzare la valutazione complessiva del modello utilizzando i punteggi di valutazione k-fold conservati.
La convalida incrociata è attualmente supportata tramite il nodo Classificatore automatico e il nodo Numerico automatico. Fare doppio clic sul nodo per aprire le proprietà. Selezionando l'opzione Convalida incrociata, una singola partizione di addestramento/test viene disabilitata e i nodi automatici utilizzeranno la convalida incrociata k-fold per valutare la serie selezionata di algoritmi diversi.
È possibile specificare il Numero di occorrenze (K); il valore predefinito è 5, con un intervallo compreso tra 3 e 10. Se si desidera conservare un campionamento ripetibile durante la convalida incrociata, per avere misure di valutazione finale congruenti in diverse esecuzioni, è possibile selezionare l'opzione Assegnazione partizione convalida incrociata ripetibile. È inoltre possibile impostare il seed casuale su un valore specifico in modo che il modello risultante sia esattamente riproducibile. Oppure fare clic su Genera per generare sempre la stessa sequenza di valori casuali, in questo caso l'esecuzione del nodo produce sempre lo stesso modello generato.
Apprendimento automatico continuo
Un inconveniente con la modellazione è che i modelli diventano obsoleti a causa di modifiche ai dati nel tempo. Ciò viene comunemente indicato come deviazione del modello o deviazione del concetto. Per aiutare a superare in modo efficace la deviazione del modello, SPSS Modeler fornisce l'apprendimento automatico continuo. Questa funzione è disponibile per i nugget del modello del nodo Classificatore automatico e Numerico automatico. Per ulteriori informazioni, vedi Continuous machine learning.